Podríamos decir que las inteligencias artificiales son todas iguales. O parecidas. O cumplen mejor o peor determinadas funciones, por lo que podemos elegir una u otra para determinadas tareas. ¿Pero qué pasaría si pudiéramos personalizarlas? Ajustarlas para que se adapten a nosotros, a determinadas tareas, para el trabajo, el estudio o el ocio, con un perfil determinado creado ad hoc.
Gemini quizás es la más completa en este sentido con sus Gems, una función disponible para los suscriptores de la versión Advanced, que ofrece algunos asistentes predeterminados, pero también la opción de configurarlo a gusto y piacere para que realice tareas más específicas, con comandos determinados o usos particulares.
Pero ahora lanzó Gemini 2.0, que es la próxima etapa en los modelos desarrollados para trabajar con agentes de IA, que lo acercan a lo que se conoce como asistente universal, una plataforma que podamos usar para absolutamente todo. Este video -en inglés- demuestra todo lo que podría hacer una IA universal que es a lo que apunta Google con Project Astra.
Project Astra es un sistema que usa una comprensión multi-modal del mundo. Fotos, video, texto y audio, puede comprender todo, incluso en varios idiomas mezclados, y hasta entendiendo diferentes acentos y palabras infrecuentes.
Google también anunció Deep Research, que es capaz de hacer una investigación profunda sobre un tema, procesar la información y ofrecer un resumen en Google Doc. ¿Alguien dijo monografía? Los estudiantes -y los profesores- deberán estar atentos a esta IA.
La clave que la diferencia de otras plataformas es que se podrá armar un plan preestablecido para obtener el resultado más adecuado. Al darle un tema, Gemini ofrecerá el plan de acción con los pasos a seguir, que el usuario deberá autorizar. Si alguna parte no nos convence podremos editarlo para lograr lo que queremos. Deep Research hará lo que haríamos nosotros: surfear la Web buscando información sobre el tema. Ah, y el resultado incluye tablas y diagramas, además del texto escrito y las fuentes de las que obtuvo la información para citarlas.
Por otra parte está el prototipo Project Mariner, enfocado en tareas más avanzadas y complejas, empezando por el navegador Chrome. Pueden comprender y analizar lo que estamos viendo en la pantalla, incluyendo texto, código, imágenes y formularios, para hacer tareas por nosotros: se los llama “agentes” en el sentido original del término, es decir, alguien que hace algo en nombre de otro: un enviado, o representante, o -por qué no- un asistente tipo cadete.
Por último está Jules, pensado para ayudar a los desarrolladores. Pueden recibir un problema, desarrollar un plan y ejecutarlo, y por supuesto realizar tareas que se le dicten al igual que muchas otras IAs.
Gemini, en su versión Advanced también ofrece Gems, una forma de personalizar a su asistente de Inteligencia Artificial para que realice tareas más específicas, con comandos determinados o usos particulares.
Podemos hacer que sea un chef personal, que nos arme un menú gastronómico de acuerdo a nuestros gustos y restricciones. Un profesor particular. Un asesor financiero. O hasta un editor, que corrige y edita notas como esta misma. Sí, las IAs son muy eficientes para revisar gramática y ortografía por ejemplo.
Dicho de otra forma, no será lo mismo pedirle una receta a Gemini, la IA general, que a un Gem configurado para conocer qué comidas nos gustan más o menos, si tenemos alguna alergia, o si preferimos las milanesas fritas o al horno.
La plataforma viene con algunos Gems prefabricados: tutor personal, exploración de ideas, orientación profesional, revisión de escritura y asistente de programación. Gems además se puede integrar con otros servicios de Google, como Gmail o Google Drive.
Al igual que en el servicio de Google, los GPTs de OpenAI están disponibles para los usuarios de pago de ChatGPT, tanto la versión Plus como la Enterprise, para empresas. Permite crear versiones personalizadas de la IA, enfocadas en tareas o propósitos determinados.
Nos puede explicar cómo jugar a un juego, ayudarnos a escribir, enseñar alguna materia a los chicos o hasta crear stickers. Al configurarlo podemos especificarle también cosas que no puede realizar. Si debe o no navegar por Internet para encontrar información. Para crear imágenes utiliza la plataforma DALL-E 3, una de las más populares en la actualidad.
Open AI, la compañía detrás de ChatGPT, explica que esta herramienta ofrece tres características fundamentales:
Los GPTs además se pueden conectar con APIs externas o sistemas de terceros para realizar funciones más sofisticadas, ideal para ciertas tareas repetitivas concretas, para el desarrollo de código y muchas otras cosas.
OpenAI ofrece varios GPTs prefabricados, pero en chatgpt.com/gpts hay una infinidad de opciones para distintas tareas, como escribir, productividad, educación, programación y lifestyle.
Copilot Studio, de Microsoft, ahora permite crear y personalizar agentes para que hagan tareas específicas, tengan capacidades autónomas y sea, literalmente, el copiloto que necesitamos para diferentes tareas. Al igual que sus competidores, la clave de la personalización es adaptarlos a necesidades o preferencias del usuario o la organización. No es lo mismo una IA que escriba una nota de tecnología que tener un agente pensado para “hacer un artículo para un medio masivo de comunicación argentino con un lenguaje no tan coloquial apto para todo tipo de lector y con cierto humor aunque sin abusar” (no, esta nota no fue hecha con una IA… pero falta poco para lograrlo).
Microsoft propone varias alternativas para los agentes personalizados de Copilot:
Copilot Studio se puede probar gratis y posteriormente ofrece diferentes tipos de tarifas, con pagos mensuales con determinada cantidad de mensajes por mes o con pagos por usos. La gran ventaja, por supuesto, es integrarlo con la suite de oficina de Microsoft 365, para trabajar en diferentes plataformas como Word, Excel o Powerpoint.
Para organizaciones, permite que el agente esté disponible para varios usuarios, ideal para compilar código, crear contenidos o simplemente para tener un editor general de texto que use el mismo criterio con todas las personas que lo usen.
La empresa dueña de Windows informó que Microsoft 365 Copilot es una plataforma que sigue creciendo: el 70% de las compañías de Fortune 500 la están usando para muchísimas tareas. Los agentes seguramente sean la próxima etapa de personalización para cada organización.
Ahora mostró Copilot Vision, un par de ojos extra para ver qué estás haciendo en la computadora y sugerirte rumbos de acción frente a un problema.
Actualmente usamos las Inteligencias Artificiales por sus cualidades generativas: generan texto, fotos, videos. Nos editan información, o les hacemos consultas, como cuáles son los mejores restaurantes u hoteles en una ciudad. ¿Y si pudieran hacer más?
La función “Computer use”, de Claude, de Anthropic, apunta a eso, aunque por ahora en formato experimental. Primero permite una interacción mucho más natural… o natural para una película futurista. En vez de escribir le podemos hablar. Y en vez de pedirle información para un viaje podríamos hacer que lo resuelva por nosotros: reservar un pasaje, el hotel y restaurantes podría ser solamente la punta del iceberg, porque es capaz de interactuar con una computadora por si sola, como si efectivamente fuera una persona, para usar el navegador u otra aplicación.
Este sistema tiene una ventaja respecto a otros, que igual conlleva riesgos respecto a la privacidad. Puede ver todo lo que tenemos en pantalla para analizarlo y pedirle tareas respecto a lo que está viendo. Algo similar a lo que busca hacer Microsoft con “Windows recall”, que saca capturas de pantalla constantemente.
Con este sistema de Claude ya hubo usuarios que lograron manejar su teléfono conectado a una computadora, con la voz, utilizando esta IA. O que este agente le pida una pizza, aunque tardó bastante tiempo en lograr hacerlo (y no salió barato por los altos costos que tienen por ahora estas plataformas).
Anthropic no es la única. Google presentó esta semana una función similar, conocida como Project Mariner, que todavía es experimental, pero que apunta en el mismo sentido: permitir que la IA use una app en nuestra computadora, o el navegador, para llevar a cabo tareas complejas que no se pueden resolver en una respuesta de un chatbot.
Si todavía no recibís las noticias de PRIMERA PLANA en tu celular, hacé click en el siguiente enlace https://bit.ly/3ndYMzJ y pasarás a formar parte de nuestra base de datos para estar informado con todo lo que pasa en la ciudad y la región.