La voz de GPT-4o: democratización del ‘deepfake’, humanización de la IA y apego emocional al asistente virtual

OpenAI, Google y Meta no descansan en la carrera de la IA y su fiesta mayor son los nuevos lanzamientos de este julio y agosto. Apple y Musk, discretos esta semana.

ago 02, 2024

Una usuaria de GPT-4o escucha a su asistente virtual en el móvil, en una imagen generada con Midjourney por Saül Gordillo.

El verano tiene algo especial que nos permite saborear mejor los momentos y profundizar reflexivamente en aspectos que durante el año pasamos por alto. Este punto de pausa, de relajo, de no ir corriendo por todas partes, nos acerca a un estado más íntimo y auténtico. Este verano de 2024 tendrá especial importancia porque para muchos será el primero para poder valorar en toda su magnitud el impacto de la Inteligencia Artificial en nuestras vidas. Para muchos —en mi caso fue el verano pasado, tampoco tengo tanto mérito— estas vacaciones serán idóneas para pensar hasta qué punto la IA nos va a cambiar para siempre, y va a transformar la sociedad.

Este mismo miércoles algunos afortunados usuarios de ChatGPT Plus han tenido acceso a las primeras alphas del sistema de voz de GPT-4o (omni), y de la misma manera que en mis recuerdos quedarán para siempre algunos directos de Carlos Santana y los primeros tutoriales de Xavier Mitjana, este miércoles, en condiciones adversas porque se encontraba de vacaciones familiares en Asia, el divulgador Jon Hernández ha protagonizado uno de los directos que recordaremos, el de la prueba de las alphas de voz de GPT-4o, que efectivamente han correspondido con la demostración que en su día realizó Mira Murati, la CTO de OpenAI. Han pasado semanas y algunos afortunados ya tienen en sus manos un chatbot revolucionario, porque creo que la voz le confiere a estas IAs una textura de asistente personal, una ‘humanidad’ de la máquina, que lo cambia todo. Es muy fuerte lo que es capaz de hacer.

Han pasado semanas y, a juzgar por el directo de Jon Hernández, las políticas de OpenAI quizá sean más exhaustivas con la voz que con el texto, incluso más estrictas respecto a la generación de imágenes. El episodio confuso y polémico de la supuesta voz de ‘Her’ en GPT-4o, la voz Sky que parecía recordar a la de la actriz de la película, Scarlett Johansson, quizá haya puesto a OpenAI en una posición excesivamente prudente, y por ello al asistente que nos ha mostrado Jon Hernández según qué cosas no se las podía pedir, por inofensivas o infantiles que parecieran. Sucede algo parecido con Midjourney, que en año electoral te rebota un mensaje de rechazo cuando le pides que genere una imagen realista de Donald Trump y Joe Biden, arguyendo que podría dar pie a propagación de ‘deepfakes’ en vista a las urnas. Y si se lo vuelves a pedir, con Kamala Harris o J.D. Vance, te saca tarjeta amarilla.

En poco tiempo, todos los usuarios de ChatGPT Plus tendremos en el bolsillo un chatbot que hablará como un humano, casi superando el test de Turing. De hecho, hay humanos más lejos de los conocimientos y de la manera de conversar con voz de GPT-4o, de manera que para una inmensa mayoría ya habríamos superando el test de Turing y estaríamos ante una etapa tan apasionante como incierta: la democratización del ‘deepfake’, la humanización de la IA, el apego emocional al asistente virtual, las tres grandes cosas a partes iguales. Aprovechemos el ritmo tranquilo de los días y noches de este verano de 2024 para reflexionar sobre lo que todo ello supone para la humanidad y para los años que nos vienen con esta IA conversacional tan realísticamente humana.

Este miércoles, mientras Jon hacía su oportuno directo de urgencia desde un despachito en Indonesia, se me ocurrió interactuar con la voz de mi GPT con la funcionalidad que el 100% de usuarios tenemos desde hace meses. Pues bien, por un momento la voz actual del GPT me pareció una Alexa, una Siri, cualquiera. Lenta, torpe… ¡robótica! Esa misma funcionalidad que hasta hacía pocas horas me parecía un salto espectacular respecto a las Alexas de Amazon y las Siris de Apple, con las que ya nos habíamos resignado a mantener una relación limitada, de una practicidad casi ridícula, quedaba superada, y de qué manera, por la sensación de estar hablando con un humano que desprendre la nueva voz del asistente de GPT-4o, y que todos tendremos democráticamente pasado el verano, en otoño.

Un podcaster, en una imagen generada con Midjourney por Saül Gordillo.

🚀 OpenAI lanza GPTSearch y va a por Google, que pisa el acelerador con su IA Gemini

Repasamos otros temas de la semana, que ya sabéis que en Algoritmo Transparente os encontráis con lo más relevante de la actualidad de la IA:

OpenAI va a la yugular de Google y, finalmente, lanza GPTSearch para competir con el buscador global de Internet. Cómo probar antes que nadie SearchGPT, el nuevo buscador de OpenAI. Me parece interesante que OpenAI priorice medios de comunicación e imponga una cierta jerarquía tras el caos de SEM, SEO y ‘clickbait’ que impacta en las primeras páginas de búsqueda de Google. La amenaza de OpenAI para Google debe ser un pellizquito, porque la propia compañía del gran buscador ya está dispuesta a reinventar las búsquedas en Internet tal y como las hemos entendido en los últimos años. Empezaron con AI Overview, después de matar a Bard metieron Gemini en todos sus productos y esta semana anuncian que su IA será más rápida: Gemini se vuelve más rápido con su nueva actualización. Se llama Gemini 1.5 Flash.

🎥 Sora suma más competencia de China antes de operar

A la compañía de Sam Altman le sale más competencia de China para su aplicación ‘embargada’ de generación de video: Zhipu AI lanza Ying: La alternativa china a Sora. Mientras esperamos que Sora llegue a todos los usuarios de pago, y mientras disfrutamos de las demostraciones que difunde su otra competencia seria, la de Gen-3 Alpha de Runway, leemos una noticia interesante sobre OpenAI: Synchron es la gran rival de Neuralink en la carrera por los chips cerebrales. Ahora tiene un as en la manga: ChatGPT

🌟 Elon Musk entra Grok con el contenido de su red social, X, y algunos medios se ponen estupendos

Elon Musk no puede evitar ser protagonista cada semana. Elon Musk está usando tus publicaciones de X (Twitter) para entrenar a Grok: así puedes impedirlo. El estupendismo mediático de la semana ha consistido en publicar piezas con el típico titular ‘cómo evitar que Musk entrene su IA con tus tuits’. ¡Ojalá se entrenara con hilos de Twitter (X) brillantes, y esperemos que no lo haga con el odio predominante en tantas cuentas!

Apple Intelligence es ya oficial: Apple lanza la beta 1 de iOS 18.1 para desarrolladores. Objetivo: tener Apple Intelligence cuanto antes. Gurman adelanta un plan inaudito de Apple para hacerlo posible desde este mismo verano.

🎯 Meta golpea de nuevo con SAM 2 mientras en París la IA y la seguridad son más noticia que nunca

Meta no se queda quieta y tras el golpe de Llama 3.1, esta semana lanza SAM 2, una IA que podría mejorar las experiencias inmersivas. Lo que decíamos de Alexa: Los Amazon Echo han muerto de éxito: se venden millones, pero la compañía no para de perder dinero con ellos. Escribo Algoritmo Transparente mientras de reojo voy viendo los Juegos Olímpicos, y vaya con la IA y la seguridad de estos Juegos: La videovigilancia masiva con IA durante los Juegos Olímpicos de París, una pesadilla para la privacidad según los activistas. Esta pieza merece atención: Los Juegos de París ya son un enorme experimento: un avance tecnológico con varios interrogantes.

👉 Sigo con interés la cobertura que Jordi Alonso está haciendo para Paréntesis MEDia de SIGGRAPH 2024: Jensen Huang defiende la IA empresarial basada en modelos abiertos. La IA generativa es la protagonista de la edición. El futuro que viene en Emergent Technologies.

👉 Antes de acabar, el apunte de la semana del Gobierno de España: La ‘SEPI digital’ de José Luis Escrivá configura su cúpula e impulsa dos proyectos de chips de 800 millones. El consejo de la nueva Sociedad Española para la Transformación Tecnológica nombra a Javier Ponce como director general y a Jaime Martorell como vicepresidente.

📝 Quiero agradecer a Política Creativa y a Xavier Peytibi la recomendación de este boletín sobre IA, Algoritmo Transparente, en su último artículo 'Especial descubrir: 23 newsletters de política que leemos (y otras 23 que también debéis conocer)' 🙌. ¡Es un honor estar en una lista tan selecta!

Además, quiero extender mi agradecimiento a Javier Guallar de Content curators por la mención en su último artículo 'IA y periodismo, Factor X, Esprint IA antes de vacaciones' 📬. Saber que referentes como ellos siguen y leen Algoritmo Transparente es un gran estímulo para seguir adelante.

Esta semana, Algoritmo Transparente llegará a los 5.500 suscriptores 🎉. Tanto interés por la IA y la tecnología anima a seguir con más fuerza compartiendo la actualidad de la IA. ¡Gracias por estar aquí!

[Este artículo también está traducido al catalán en Algoritme Transparent.]

Algoritmo Transparente #44

Algoritmo Transparente