ANA Economia

Desenvolupaments tecnològics rellevants al mercat (II)

Per Àlex Fusté

Àlex Fusté, Economista en Cap del Grup Andbank (Chief economist)

07/08/2024 A LES 13:32

Aquesta nota dona continuïtat a la nova secció titulada 'Desenvolupaments tecnològics rellevants en el mercat'. Una sèrie de publicacions amb la qual perseguim compartir amb vostès la nostra valoració sobre els avanços tecnològics que considerem posseeixen el potencial per a continuar impulsant el mercat.

Desenvolupaments durant el mes de juliol

Nova variant de GPT-4o. Open AI ha fet un nou pas i ha llançat el nou model de llenguatge anomenat GPT-4o LONG OUTPUT. Es tracta d'una nova variant amb una capacitat de sortida de 'tokens' encara major. Dissenyat per a usuaris professionals, investigadors, etc., que requereixen respostes i reflexions més riques i detallades. Fins ara el model estava limitat a 4.000 'tokens' de sortida (suficient per a moltes aplicacions, però insuficient per a necessitats més complexes). Amb GPT-4o Long Output els usuaris més rigorosos (de l'àmbit de la ciència) obtenen sortides de 64.000 'tokens' d'aprofundiment (equivalent a un llibre de 200 pàgines). El límit de context de 128.000 'tokens' es manté (és a dir, la interacció que usa tokens d'entrada i de sortida no pot superar aquesta xifra). Així i tot, aquesta actualització ens sembla rellevant i amb implicacions practiques importants. Obre noves possibilitats per a empreses i projectes que precisen de models de IA cognitiva (processos mentals involucrats en el coneixement i la comprensió). Permetrà aquesta actualització un salt en la cognició humana? No ho sé, però dono per fet que les funcions d'adquirir, processar, emmagatzemar i utilitzar coneixement experimentaran un salt qualitatiu. A partir d'aquí, caldrà veure com afecta a la reflexió i la resolució de problemes. El preu del servei serà de 18$ per milió de 'tokens' de sortida. Un preu agressiu (baix). Important, perquè farà que aquestes noves capacitats siguin molt accessibles per a un ampli espectre d'usuaris i investigadors.
Open AI comença a desplegar el nou mode de veu de Xat GPT. No és un llançament massiu de la versió final, si no una versió per a usuaris de GPT Plus. Ho hem provat i només puc dir que parlar amb la IA de forma totalment natural és ja una realitat. Una de les millores rellevants enfront del mode de veu original és que en aquesta versió pots interrompre la conversa i reconduir-la de forma totalment fluida. Una altra de les millores és la possibilitat de mantenir converses emocionals (pots demanar-li al model que parli amb l'estil d'un comentarista de futbol argentí quan Boca li fica un gol a River). Bromes a part, per a entendre aquest progrés els diré que el model anterior convertia la veu en text i després GPT4 processava aquest text per a convertir-ho en veu. Ara, GPT4o, a l'ésser un model multimodal el processa directament aconseguint una latència inapreciable. Molt natural. Aquest nou mode de veu no està limitat a l'anglès si no que està provat 45 idiomes. Amb quatre veus disponibles. Als fans de Scarlett Johanson, lamento dir-los que l'opció amb la veu de l'actriu no estarà disponible (era l'opció Sky). L'actriu va rebutjar l'oferta de Altman per a posar la seva veu en el bot més famós del món.
Nvidia li donarà a la Xina la solució que necessita per a competir en IA: Al març, Nvidia va presentar el seu Blackwell B200, un processador bestial amb 208.000 milions de transistors i que totes les grans tecnològiques volen. A causa de les restriccions imposades pels EUA, la Xina no té accés als últims processadors de Nvidia. Les signatures xineses estan buscant alternatives que no són més que pegats comparat amb l'últim de Nvidia. Però ara, Nvida ha aconseguit un acord amb el govern USA per a poder vendre a la Xina una versió específica de la seva Blackwell B200. Aquesta versió es diu B20 i presenta un alt rendiment (encara que menor) en centres de dades amb refrigeració líquida (on Super Micro Computer és líder). El paper de la Xina en la carrera de la IA? Des de la imposició de les restriccions amb els Xips a la Xina, Nvidia ha creat tres versions que sí que podien ser venudes al mercat xinès (L2, L20, H20). Cap era el seu processador més avançat, i es tractaven de GPUs més febles perquè la seva venda a la Xina fos autoritzats pel Departament de Comerç dels EUA. Perquè es facin una idea, el model H20, que era el model més avançat que Nvidia podia vendre a la Xina, és set vegades menys potent que l'H100 que Nvidia comercialitza en la resta del món. És d'esperar que la versió B20 guardi una relació similar respecte a la B200. Això són bones notícies per a Nvidia i l'ecosistema tecnològic (semiconductors), perquè el mercat Xinès representa encara un 17% dels ingressos anuals de Nvidia (fa dos anys era el 26%). Però això ja ens dona una idea del lloc on està quedant la Xina en aquesta carrera.
S'incorporen capacitats de visió en un model IA. Els models de visió són una cosa nova i diferent dels models d'imatge (que permeten crear fotos i vídeos a partir de textos descriptius). He vist alguna demo d'aquest model de visió i vaig presenciar com a Xat GPT ajudava a uns nens amb els seus deures observant els seus quaderns, o descrivint amb detalls el que hi ha en una sala, o qualsevol espai. Aquestes funcions estan impulsades per les capacitats de visió de GPT-4o i sospitem poden tenir aplicació en moltes indústries (per exemple, conducció autònoma, cirurgia, etc.). Aquest model es llançarà en una data encara per determinar.
Friend. El primer wearable (penjant) que ho escolta tot durant 24 hores i està dissenyat per a convertir-se en el que el seu nom indica. El teu millor amic. Basat en el bot Claude 3.5 (versió més nova i potent de Antrophic), disposa de diversos micròfons i una bateria, funciona amb el iphone i costarà 99$ (sense subscripció associada). Hem vist alguns dels casos d'ús i situacions d'interacció entre usuari i el dispositiu, i és capaç d'inferir una resposta adequada i coherent en funció de l'historial d'escolta, per llarg que sigui. Alguns exemples: el dispositiu capta el contingut de TV que l'usuari està veient i comenta espontàniament l'escena o fins i tot el sentit complet de la pel·lícula. Un altre exemple interessant és quan Friend renya a una empleada que s'està prenent un descans més llarg del permès. O si estàs jugant una partida i estàs perdent, el dispositiu reacciona espontàniament amb una petita mofa. Però l'exemple que més em va cridar l'atenció va ser quan un usuari va vessar una mica de salsa sobre el seu dispositiu penjant i aquest va respondre automàticament amb un “Yum, que bo”. Se suposa que aquesta IA no disposa del sentit del gust. Això demostra que el sentit de visió està extremadament desenvolupat. Pot ser això el teu millor amic, com pretenen els seus creadors? No ho sé però S'imaginen demanar consell sobre com actuar a una cosa lògica que observa tot el que ocorre i tot l'ocorregut al teu voltant? A mesura que assisteixo observant a aquests desenvolupaments, no puc evitar sentir una certa inquietud sobre les implicacions que això pugui tenir en les relacions humanes. En fi. Nous temps.
Meta presenta Flama 3.1. Un poderós IA de codi obert per a competir amb GPT-4o. Meta no vol quedar-se ressagat en la carrera de la IA i llança el que serà el primer model obert (camí diferent al de Google i OpenAI, que van optar per desenvolupar models tancats com Gemini o GPT-4. Segons Meta, el seu model Flama 3.1 és el model de llenguatge amb més capacitat en el món, entrenada amb 15 bilions de tokens, prioritzant no sols la quantitat, si no la qualitat de respostes. Meta afirma que la tardança a treure el seu producte es devia precisament al fort procés d'entrenament. De fet, rivalitza bé amb GPT-4o o Claude 3.5 en matemàtiques, traducció i coneixements generals. Coses estranyes del capitalisme. No creuen? No em malinterpretin. El capitalisme és aquest sistema superior on la llibertat es mesura per la quantitat de coses que pots comprar, encara que per a aconseguir-lo hagis d'hipotecar la teva vida. No com el comunisme, on la igualtat d'oportunitats està assegurada... sempre que et conformis que tots tinguin igual de poc.
Gemini (Google) es torna més ràpid i poderós amb la seva última actualització (model Flaix 1.5).
Grok, la IA de 'X' (Twitter) podria tenir avantatge sobre la resta. La xarxa social ha començat a usar les dades dels usuaris per a entrenar al seu model de IA anomenat Grok, que a més d'estar integrada en la xarxa social (orientada a la monetització de continguts), també està integrada en els seus vehicles Tesla. Elon Musk va començar a usar les dades dels usuaris sense avís previ, però es pot revocar aquest permís.
IA i Corrupció. No sé si hauran sentit parlar del frau del CEO. Jo mateix vaig sofrir un. Es tracta d'un cas en el qual reps un email del teu CEO indicant-te que realitzis una transferència urgent. Pel seu lloc en el mail et diu que en aquest moment no pot parlar però que més tard et contactarà per a donar-te els detalls. La meva experiència va resultar una mica còmica i per descomptat no es va materialitzar. La cosa canvia ara amb la IA, ja que permet que rebis una trucada amb la veu de la teva CEO suplantada, o fins i tot un vídeo anomenada amb el teu #mateix CEO en pantalla ordenant una transferència urgent. Clar! Pot donar-se el cas que no t'atreveixis a dir-li que no al teu CEO, sense saber que en realitat és el teu fals CEO. Jo mateix he creat un vídeo sintètic de més de 15 minuts de mi mateix. Els casos de Deepfake amb IA d'imatge ja estan ocorrent en tots els països. Alguns amb èxit, per cert. El més sonat ha ocorregut fa pocs mesos, amb la policia d'Hong Kong reportant un cas d'una multinacional financera en la qual un executiu va ser convocat a una reunió de videotrucada pels seus superiors (que en realitat no ho eren). L'experiència va resultar en un robatori d'USD25 milions segons les autoritats.
Ritme de penetració de la IA en la societat. El banc JPMorgan ja ha desplegat una eina de IA (LLM Suite), una mena de Xat GPT intern per a ser usat pels seus empleats i analistes i ajudar-los en les seves tasques diàries. Aquesta serà una dinàmica constant, en la qual l'últim a abraçar aquestes capacitats quedarà relegat. Aquesta és una de les raons per les quals considero que hi haurà un salt important en inversió i provisió d'aquests serveis. Al meu entendre, un factor necessari i suficient perquè els drivers que han impulsat el mercat continuïn.
IA d'imatge: Runway llança la seva nova versió de vídeos a partir de promtps de text i que augmenta les meves capacitats creatives d'imatge. Es diu Gen3 i l'hem provat. Amb la versió econòmica puc fer una sèrie de clips (els que vulgui) de 10 segons cadascun i amb el nivell de fantasia que un desitgi, i després unir-los tots mitjançant una altra aplicació (Cap cut), editar-lo, reeditar-lo, posar música, veu, etc., i acabar realitzant una composició llarga original. VozoRewrite & Redub: aplicacions de IA que em permeten transformar narratives de vídeos existents, com canviar el to, l'idioma o fins i tot el missatge complet. Això obre la veda per a narratives redissenyades, redoblar amb veu clonada, editar veu amb text, sincronització labial avançada, etc. Pot semblar divertit, però no ha de resultar tan divertit per al president de la nació espanyola (per exemple) quan veu en xarxes un vídeo seu dient ruqueries.
Seguretat per a les empreses que integren la IA en les seves operacions. Dioptra és una eina desenvolupada pel NIST (National Institute of Standards and Technology) dels EUA dissenyada per a assegurar el desenvolupament de confiança de la IA. Evita que els models de IA basats en dades errònies puguin actuar de manera impredictible. Per exemple, una empresa que fabrica cotxes autònoms entrenats a partir de dades pot ser objecte d'atacs a la seva base de dades d'entrenament, que pot ser manipulada de manera maliciosa (des d'injeccions de dades errònies fins a les manipulacions més subtils que puguin alterar el comportament del sistema). En tal cas, pot ser que els seus cotxes no reconeguin correctament un senyal de trànsit. Dioptra permetrà a empreses, agències i governs respondre a atacs malintencionats, centrant-se en la seguretat de les dades per al bon funcionament dels models de IA. Dioptra serà gratuït, permetent a petites i mitjanes empreses protegir els seus models de IA sense necessitat de grans inversions. Això és molt rellevant en un context on moltes organitzacions comencen a integrar la IA en les seves operacions diàries.

Desenvolupaments tecnològics rellevants al mercat (II)

Notícies relacionades

Acord entre Google Cloud i Andorra Digital que obre la porta que el país tingui un núvol sobirà

Lluís Soldevila: 'La intel·ligència artificial té una dimensió evolutiva descomunal'

Xavier Mitjana: 'La IA té un gran potencial, però s'ha de saber utilitzar'

Un congrés presentarà les últimes tendències en intel·ligència artificial des de diferents àmbits

El gran desafiament de la intel·ligència artificial pel 2024: Més enllà del 'Hype'