Fuente: https://computerhoy.com/apple/apple-crea-ia-capaz-entender-matices-conversacionales-1376784
- Apple ha desarrollado un modelo de lenguaje que puede comprender imágenes ambiguas y contexto conversacional para permitir interacciones más naturales con la IA.
- ReaLM, además, es capaz de interpretar imágenes incrustadas en el texto para así extraer información como números de teléfono o recetas.
Que Apple quiere entrar en el mercado de la inteligencia artificial es algo que ya sabe todo el mundo.
A mediados de marzo, Apple adquirió Darwin AI para así tratar de liderar la IA generativa, así como integrar Gemini, la IA de Google en el iPhone.
Ahora, la firma de Cupertino tiene en mente competir contra los productos de GPT de OpenAI con el objetivo de hacer que las interacciones con asistentes virtuales como Siri sean más intuitivas.
¿Cómo? A través del sistema ReaLM, un modelo de lenguaje que comprende imágenes ambiguas en pantalla y contenido, así como el contexto conversacional para permitir interacciones más naturales con la IA.
Este nuevo sistema, tal y como apuntan desde Business Insider, es capaz de determinar el contexto y a qué se refieren las expresiones lingüísticas y «puede existir en el dispositivo sin comprometer el rendimiento», apuntan los creadores de ReaLM.
¿La idea? Imagina que pides un listado de farmacias y que luego le pides que llame por teléfono a una de ellas. En vez de salir un error, Siri podría descifrar el contexto necesario para llevar a cabo esa tarea.
«El habla humana típicamente contiene referencias ambiguas como ‘ellos’ o ‘eso’, cuyo significado es obvio (para otros humanos) dado el contexto», escriben los investigadores sobre las habilidades de ReaLM.
«Ser capaz de entender el contexto, incluidas referencias como estas, es esencial para un asistente conversacional que tiene como objetivo permitir a un usuario comunicar naturalmente sus requisitos a un agente, o tener una conversación con él», continúan.
Además, este sistema ReaLM es capaz de interpretar imágenes incrustadas en el texto para así extraer información como números de teléfono o recetas, por poner un par de ejemplo.
Esto, sin duda, sería un enorme avance en el campo de la IA, ya que GPT-4 sí que es capaz de contextualizar imágenes, pero solo se centra en imágenes naturales del mundo real y no en capturas de pantalla, algo que, en palabras de los desarrolladores, obstaculiza su rendimiento práctico.
«Apple ha sido vista desde hace tiempo como rezagada respecto a Microsoft, Google y Amazon en el desarrollo de inteligencia artificial conversacional», aseguran en The Information.
«El fabricante del iPhone tiene la reputación de ser un desarrollador cuidadoso y deliberado de nuevos productos, una táctica que ha funcionado bien para ganar la confianza de los consumidores, pero que podría perjudicarlo en la carrera frenética por la IA», continúan.
De momento no está claro si Apple implementará ReaLM, pero viendo como Tim Cook ha asegurado que su IA generativa «romperá moldes» este mismo año, es más que probable que este sea uno de sus puntos fuertes.