La mesa está servida… y en el ring ya están los contrincantes. Google no podía quedarse atrás frente a OpenIA, cuando la inteligencia artificial (IA) generativa ya es una de las herramientas más poderosas que asoman en el planeta.
Hace escasos días, el gigante de las búsquedas y todopoderoso de la tecnología universal ha presentado en sociedad la Red de Inteligencia Multimodal Generalizada, o -lo que es lo mismo- su propia IA, destinada a remodelar la forma en que interactuamos.
Ante millones y millones de miradas de todas las latitudes, Google presentó Gemini, su nueva criatura, como “un modelo de inteligencia artificial multimodal, que muestra una competencia sin precedentes en el procesamiento de diversos tipos de datos, incluidos texto, imágenes, código, voz”… y mucho, mucho más. Por lo anunciado, todo lo que habíamos visto hasta ahora (incluidos el GPT-4 y las otras herramientas de inteligencia artificial más avanzadas) serán superadas en cuanto a magnitud y prestaciones de este programa.
Técnicamente, la invención fusiona un codificador y decodificador multimodal. El rol del codificador es transformar diferentes tipos de datos a un lenguaje común que el decodificador pueda entender. Después, el decodificador decide generar salidas en diferentes modalidades, según las entradas codificadas y la tarea en sí misma.
Para conocer los entresijos y el ‘otro lado’ de Gemini, proponemos los siguientes 10 ejes de un desarrollo que podría ser uno de los grandes hallazgos del siglo XXI, aunque todo está por verse: la velocidad de los desarrollos tecnológicos en materia de IA no hacen más que brotar y solaparse unos con otros, a un ritmo frenético y espectacular que no para de sorprender. Su anuncio llega casi en simultáneo a otro hito (nada casual): la UE acaba de aprobar la primera ley de inteligencia artificial del mundo, con todo lo que ello significará y afectará al funcionamiento de herramientas como el nuevo ‘bebé’ de Google.
1. Una revolución con procesamiento ‘multidato’ nunca antes vista
Los modelos de IA tradicionales y conocidos hasta ahora estaban diseñados para manejar un tipo de datos, pero Gemini es capaz de procesar múltiples tipos de datos y tareas simultáneamente. Esto incluye gráficos y audios, con una velocidad de adaptación impresionante. Gracias a ello, los usuarios podrán alcanzar interacciones mucho más naturales y atractivas y hablar con la IA como si se tratase de una persona real.
De este modo, Gemini es capaz de generalizar y comprender, operar y combinar sin problemas diferentes tipos de información. Su carta de presentación es la de un «modelo más flexible», capaz de ejecutarse en centros de datos o dispositivos móviles.
2. Interpretación de forma nativa, en tiempo real
Este modelo ha sido concebido desde los comienzos del proyecto para combinar distintas modalidades de forma nativa. ¿Qué quiere decir esto? Es capaz de interpretar textos, fotos, sonidos o dibujos en tiempo real. Y no solo eso: podrá relacionar todos esos objetos en tiempo real y sugerir instrucciones de uso a medida que le damos indicaciones, para optimizar nuestras necesidades.
Es importante tener en cuenta que Gemini no es una aplicación sino la plataforma para llevar este último modelo de inteligencia artificial a los servicios existentes, desde Bard (el chat de Google competidor directo de ChatGPT), hasta el buscador o los gestores de servicios o los móviles con Android o los centros de datos a gran escala.
3. AlphaCode2, la locomotora detrás del ‘bebé’ de Google
AlphaCode2 es el sistema diseñado para mejorar la comprensión de matemáticas complejas y la teórica de ciencias de la computación. Sin duda, es la locomotora que traccionará a la versión de Gemini denominada ‘Ultra’: los artífices del proyecto aseguran que ha mejorado el razonamiento y su capacidad de entender código, de forma que haya menos interpretaciones vagas o confusas y las respuestas sean más fiables.
En ese contexto, AlphaCode2 se erige como la gran herramienta de escritura de códigos que puede superar al 85% de los programadores de computadoras humanos de nivel competitivo.
4. Ultra, Pro y Nano: tres caminos para un sueño hecho realidad
Gemini llega con tres versiones diferentes: además de la mencionada Ultra, también crearon Pro y Nano. La primera es la más avanzada y multimodal. Pro es una versión intermedia y un poco más limitada en capacidades y funciones, y la versión Nano está diseñada para alimentar a dispositivos con menos capacidades de computación y memoria, y así poder funcionar en teléfonos móviles.
Esta última versión de Gemini, aunque parezca la más ‘pobre’ en posibilidad de prestaciones, es sin embargo uno de sus mayores hitos, ya que podrá ser utilizada como una IA de manera masiva, que se implementa directamente dentro del dispositivo celular directamente. Esto quiere decir que no hay que descargar una app que se conecte a un servidor de la IA (como pasa con ChatGPT), sino que está incorporada al móvil y no necesita conexión. Es muy importante tener en cuenta que Gemini Nano llegará a los móviles Pixel 8 Pro de Google en los próximos meses.
5. Creatividad e innovación como valores diferenciales, de la mano de DeepMind
DeepMind es una de las divisiones de Google que goza de mayor prestigio dentro de la estructura de la compañía. También, para los círculos más reconocidos de la competencia internacional. Su sede está situada en Londres, y todos reconocen que es el padre de la nueva criatura de Google.
Sus ingenieros sacan pecho: afirman que Gemini supera holgadamente el modelo más potente de ChatGPT (hasta ahora), el GPT-4, en 30 de 32 pruebas comparativas que han realizado, lo que demuestra una capacidad de destreza en el razonamiento y la comprensión de imágenes inéditas. Si realmente se cumplen sus vaticinios, estamos asistiendo al alumbramiento de una herramienta súper-poderosa, con capacidades realmente avanzadas: desde generar texto creativo hasta responder preguntas complejas y traducir idiomas, su conjunto de habilidades es muy amplio y nuevo. Esto significa que puede crear contenido que no necesariamente existe en sus datos de entrenamiento, lo que la convierte en una herramienta brutal para tareas que tengan que ver con la creatividad y la innovación.
6. Un lanzamiento supeditado a la polémica normativa que regule a Europa
El lanzamiento inicial de Gemini se realizará próximamente, en etapas en más de 170 países. La versión Nano ya se puede usar por parte de los desarrolladores de Android. La Pro estará disponible a partir del 13 de diciembre y la Ultra se podrá implementar a partir de principios de año (con fecha aún por determinar). Los desarrolladores y clientes empresariales podrán acceder a Pro a través de la API Gemini en Google AI Studio o Vertex AI. A través de AICore, los desarrolladores de Android también podrán crear aplicaciones con Nano.
Pero como telón de fondo existe un tema que no puede soslayarse en Europa. La normativa que regula el uso de la inteligencia artificial en este continente ha sido motivo de sucesivas polémicas en los últimos años. En ese contexto, la UE acaba de aprobar hace horas la primera ley de inteligencia artificial del mundo.
Los Estados que la integran y la Eurocámara han conseguido subsanar diferencias que parecían eternas. En este contexto, alcanzaron un acuerdo que aún es provisional y debe ser ratificado antes de que entre en vigor.
7. No habrá Gemini exitoso sin una regulación aceitada y consolidada por la UE
Paralelamente a los nuevos hitos creados por los desarrolladores más eximios que diseñan herramientas como Gemini, debe existir un marco normativo aceptado y consolidado por la UE respecto al uso de la inteligencia artificial. La nueva Ley aprobada por los estados miembros de la Unión Europea entrará previsiblemente en vigor a finales de 2026.
El texto de la norma define las obligaciones y encuadre jurídico por las que deberá regirse una tecnología tan poderosa como la IA. Nadie duda de sus infinitas oportunidades… pero también de los enormes riesgos que supondría un mal uso de la misma. Muchos de esos peligrosos ni siquiera aún son imaginables o habitan en la mente de los más fantasiosos humanos.
8. Una lanzadera para que las startups europeas lideren la carrera global por la IA
“La UE se convierte en el primer continente que pone reglas claras para el uso de la IA”, señaló días atrás el comisario de Mercado Interior de la UE, Thierry Breton. Es uno de los grandes impulsores de la normativa, para quien la ley propuesta es “mucho más que un paquete de normas, es una lanzadera para que las startups europeas y los investigadores lideren la carrera global por la IA”.
9. Uno de los núcleos de las discusiones para cerrar una Ley en un terreno inexplorado
Durante casi tres años, el grupo de los Veintisiete debatió esta Ley. Uno de los puntos más espinosos, que levantó las discusiones más acaloradas fue, precisamente, cómo regular los modelos de IA de propósito general (la IA generativa o modelos fundacionales) en los que se basan popularmente herramientas como Gemini o ChatGPT.
También la norma generó fuertes debates respecto a la regulación de los sistemas de vigilancia biométrica (como el reconocimiento facial). Son dos de los núcleos que generaron los mayores recelos entre los eurodiputados, en relación con los reparos que despierta la IA.
10. Desafíos que debe enfrentar la IA en el horizonte cercano
El texto final de la Ley establece los desafíos que debe enfrentar el buen uso de la IA. Por ejemplo, quedarán prohibidos varios sistemas de vigilancia biométrica que la UE considera inaceptables: los sistemas de categorización biométrica (por creencias políticas, religiosas, filosóficas o por orientación sexual o raza), los sistemas para expandir o crear bases de datos faciales captando datos de manera indiscriminada a través de Internet o de grabaciones audiovisuales y televisión, el reconocimiento de emociones en el lugar de trabajo y en instituciones educativas, y el social scoring (sistemas que puntúan a las personas en función de su comportamiento social o características personales) son algunos de ellos. También se prohíbe propagar los sistemas que manipulan el comportamiento humano y la IA usada para explotar las vulnerabilidades de las personas (por ejemplo por su edad o situación social o económica).
11. Referente universal como faro que marque un rumbo
En ese contexto ha surgido Gemini, con el nacimiento a la par de una legislación en materia de IA que promete ser un referente universal para el resto del globo. Como quedó dicho más arriba en este artículo, la Ley de IA debería poder entrar totalmente en vigor hacia finales de 2026, aunque algunas de sus partes o apartados lo harían antes. Está previsto que una Oficina de IA en Europa empiece a funcionar en cuanto se ratifique el reglamento, mientras que la prohibición de los sistemas prohibidos de inteligencia artificial llegará a los seis meses y los requisitos para los sistemas y modelos de IA generativa, a los 12.
Con todo ello, nada más puede decirse que dar la bienvenida a Gemini, un nuevo elemento que se integrará a nuestras vidas como en su momento fue Internet, el Whatsapp, el ChatGPT y tantos y tantos desarrollos que hoy son tan necesarios para la sociedad como el oxígeno mismo para respirar.
Tecnología