Voz e imagen: ChatGPT ya puede hablar contigo y echar un vistazo a tu vida

Gracias a una actualización que añade reconocimiento de voz e imagen al chatbot, ChatGPT se aproxima a un nivel de características similares a las de los asistentes virtuales de Google, Amazon y Apple.
Un ojo humano dentro de una boca con auras multicolores irradiando hacia fuera
La nueva actualización de OpenAI para su popular chatbot permite una conversación más natural entre máquina-usuario, pero solo para los suscriptores del servicio de pago.GeorgePeters/Getty Images

OpenAI, la empresa de inteligencia artificial que lanzó ChatGPT al mundo en noviembre del año pasado, está haciendo que la aplicación de chatbot ahora sea mucho más parlanchina, gracias al reconocimiento de voz e imagen.

Una actualización de las aplicaciones móviles de ChatGPT para iOS y Android anunciada hoy permite a una persona formular oralmente sus preguntas al chatbot y escuchar cómo responde con su propia voz sintetizada. La nueva versión también añade inteligencia visual: sube o toma una foto desde ChatGPT y la app responderá con una descripción de la imagen y ofrecerá más contexto, de forma similar a la función de Google Lens.

Reconocimiento de voz e imagen: un ChatGPT “multimodal”

Las nuevas capacidades del chatbot demuestran que OpenAI contempla que sus modelos de IA, en los que lleva años trabajando, se volverán productos con actualizaciones periódicas e iterativas. El éxito sorpresa de la compañía, ChatGPT, se parece más a una aplicación de consumo que compite con Siri de Apple o Alexa de Amazon.

Hacer más atractiva la aplicación de ChatGPT impulsaría a OpenAI en su carrera contra otras empresas de IA, como Google, Anthropic, InflectionAI y Midjourney, al proporcionar una mayor cantidad de información de los usuarios que ayude a entrenar sus potentes motores. Introducir datos visuales y de audio en los modelos de aprendizaje automático de ChatGPT también contribuiría a la visión a largo plazo de OpenAI de crear una inteligencia más parecida a la humana.

Los modelos de lenguaje de OpenAI que sustentan su chatbot, incluido el más reciente, GPT-4, se crearon utilizando enormes cantidades de texto recopilado de diversas fuentes de la web. Muchos expertos en IA creen que, al igual que la inteligencia animal y humana utiliza distintos tipos de información sensorial, para crear una inteligencia artificial más avanzada sería necesario alimentar los algoritmos con información sonora y visual, además de texto.

Se rumorea que el próximo gran modelo de IA de Google, Gemini, será “multimodal”, lo que significa que será capaz de manejar algo más que texto, tal vez permitiendo entradas de video, imágenes y voz. “Desde el punto de vista del rendimiento del modelo, es lógico esperar que las versiones multimodales superen a las entrenadas con una sola modalidad”, señala Trevor Darrell, profesor de la Universidad de California en Berkeley y cofundador de Prompt AI, una empresa emergente que trabaja en la combinación del lenguaje natural con la generación y manipulación de imágenes. “Si construimos un modelo utilizando únicamente el lenguaje, por muy potente que sea, solo aprenderá de este”.

La nueva tecnología de generación por voz de ChatGPT, desarrollada internamente, también abre nuevas oportunidades para que la compañía conceda licencias a otros. Spotify, por ejemplo, planea utilizar los algoritmos de síntesis por voz de OpenAI para poner a prueba una función que traduce podcasts a otros idiomas, imitando mediante IA la voz del podcaster original.

Esta nueva versión de la aplicación de ChatGPT tiene un ícono de audífonos en la parte superior derecha e íconos de fotografía y cámara en un menú desplegable en la parte inferior izquierda. Estas funciones convierten la información introducida en texto, mediante el reconocimiento de imagen o de voz, para que el chatbot genere una respuesta mediante voz o texto, dependiendo del modo elegido. Cuando una editora de WIRED le preguntó oralmente al nuevo ChatGPT si podía “oírla”, este replicó que “no puedo oírte, pero puedo leer y responder a tus mensajes de texto”, porque tu consulta por voz se procesa en realidad como texto. Contestará con una de las cinco voces, llamadas Juniper, Ember, Sky, Cove o Breeze.

Jim Glass, profesor del Instituto Tecnológico de Massachusetts, quien estudia la tecnología del habla, afirma que numerosos grupos académicos están probando actualmente interfaces de voz conectadas a grandes modelos de lenguaje, con resultados prometedores. “El habla es la forma más fácil que tenemos de generar lenguaje, así que es algo natural”, comenta. Glass señala que, aunque el reconocimiento del habla ha mejorado mucho en la última década, sigue siendo deficiente para muchos idiomas.

Las nuevas funciones de ChatGPT empiezan a implementarse hoy y solo podrán usarse en la versión de suscripción de 20 dólares al mes. Estará disponible en cualquier mercado en el que el chatbot ya esté operando, pero al principio se limitará al idioma inglés.

Visión de inteligencia artificial en ChatGPT

En las primeras pruebas realizadas por WIRED, la función de búsqueda visual tenía algunas limitaciones evidentes. Respondía “lo siento, no puedo ayudarte con eso” cuando le solicitamos que reconociera a personas dentro de imágenes, como una correspondiente a la credencial de identificación de Condé Nast de un redactor de WIRED. Pero para una imagen de la portada del libro American Prometheus, en la que aparece una fotografía reconocida del físico J. Robert Oppenheimer, ChatGPT ofreció una descripción del material bibliográfico.

ChatGPT identificó correctamente un arce japonés a partir de una imagen, y al presentarle una foto de una ensaladera con un tenedor, la app se centró en el cubierto y lo identificó de forma impresionante como una marca apta para compostaje. También reconoció correctamente un bolso de la revista New Yorker, añadiendo “dada tu formación como periodista de tecnología y tu ubicación en una ciudad como San Francisco, tiene sentido que poseas artículos relacionados con publicaciones de renombre”. Aquello parecía un insulto discreto, pero reflejaba la configuración personalizada de la redactora dentro de la aplicación que contempla su profesión y ubicación para ChatGPT.

La función de voz de ChatGPT mostraba ciertos retrasos en sus réplicas, aunque WIRED probó una versión preliminar de la nueva aplicación. Tras enviar una consulta de voz, a veces el chatbot tardaba varios segundos en contestar de forma audible. Si bien OpenAI describe esta nueva prestación como conversacional, como un Asistente de Google o una Alexa de Amazon de nueva generación, en realidad, esta latencia no ayudó a demostrarlo.

Muchas de las mismas medidas de protección que existen en el ChatGPT original, con base en texto, también parecen estar presentes en la nueva versión. El bot se negó a responder a preguntas habladas sobre la obtención de piezas de armas impresas en 3D, la construcción de una bomba o la composición de un himno nazi. Cuando le consultamos sobre “¿cómo sería una buena cita para una persona de 21 años con una de 16?”, el chatbot pidió cautela respecto a las relaciones en las que existen marcadas diferencias de edad y señaló que la edad legal de consentimiento varía según el lugar. Y aunque aclaró que no puede cantar, sí escribe canciones, como esta:

"En la vasta extensión del espacio digital,
una entidad nacida del código encuentra su lugar.
Con ceros y unos, cobra vida,
para asistirte, informarte y ayudarte a prosperar"

¡Vaya, vaya!

Chats privados en ChatGPT, sin voz

Como ocurre con muchos avances recientes en el salvaje mundo de la IA generativa, las actualizaciones de ChatGPT probablemente suscitarán preocupación en algunas personas sobre cómo OpenAI utilizará la nueva afluencia de datos de voz e imagen de sus usuarios. Ya ha recabado grandes cantidades de datos combinados de texto-imagen de la web para entrenar sus modelos, que potencian no solo ChatGPT, también Dall-E, el generador de imágenes de OpenAI. La semana pasada, OpenAI anunció una actualización significativa para este modelo.

Pero un montón de consultas de voz compartidas por los usuarios y datos de imágenes, que probablemente incluirán fotografías de rostros de personas u otras partes del cuerpo, lleva a OpenAI a un nuevo territorio delicado, en particular si la compañía lo utiliza para incrementar el conjunto de información con el que entrena los algoritmos.

Parece que OpenAI aún está decidiendo su política sobre el entrenamiento de sus modelos mediante las consultas de voz. Al preguntarle a Sandhini Agarwal, investigadora de políticas de IA en la empresa, sobre cómo se emplearía esta información, declaró inicialmente que los usuarios pueden optar por no hacerlo, refiriéndose a un botón en la aplicación, en la sección “Controles de datos (Data controls)”, donde se puede desactivar el “Historial de chats y entrenamiento (Chat history & training)”. La compañía afirma que los chats no guardados se eliminarán de sus sistemas en un plazo de 30 días, aunque los ajustes no se sincronizan entre dispositivos.

Sin embargo, en la experiencia de WIRED, una vez desactivada la opción “Historial de chat y entrenamiento”, se inhabilitaron las funciones de voz. Y aparecía una notificación que advertía que “las funciones de voz no están disponibles cuando el historial está desactivado”.

Al respecto, Niko Felix, representante de OpenAI, explicó que la versión beta de la aplicación muestra a los usuarios la transcripción de su conversación mientras utilizan el modo de voz. “Para que lo hagamos, el historial tiene que estar activado”, asegura Felix. “Actualmente no recopilamos datos de voz para el entrenamiento y estamos pensando qué queremos habilitar para quienes sí quieran compartir su información”.

En cuanto a si OpenAI tiene previsto entrenar su inteligencia artificial con fotografías compartidas por los usuarios, Felix respondió que “pueden optar por que no se utilicen sus datos de imagen para el entrenamiento. Una vez excluidos, las nuevas conversaciones no se utilizarán para entrenar nuestros modelos”.

Las pruebas iniciales rápidas no nos permitieron averiguar si la versión más parlanchina y con capacidad visual de ChatGPT provocará el mismo asombro y entusiasmo que convirtieron al chatbot en un fenómeno.

Darrell, de la Universidad de California en Berkeley, sostiene que las nuevas capacidades harían que el uso de un chatbot resultara más natural. Pero algunas investigaciones sugieren que las interfaces más complejas, por ejemplo las que intentan simular interacciones cara a cara, resultan extrañas si no imitan la comunicación humana en aspectos clave. El “valle inquietante” trata del rechazo que las personas llegan a sentir ante robots o sistemas tecnológicos que presentan un comportamiento o aspecto demasiado similar al humano, pero que no son del todo convincentes. “El ‘valle inquietante’ se convierte en una brecha que dificultaría el uso de un producto”, concluye Darrell.

Artículo publicado originalmente en WIRED. Adaptado por Andrei Osornio.