Los chatbots de Inteligencia Artificial necesitan ayuda para aprender a dar respuestas precisas.
La inteligencia artificial ha hecho que sea más fácil que nunca encontrar información: si se le pregunta a ChatGPT casi cualquier cosa, el sistema responde rápidamente. Pero los grandes modelos de lenguaje que impulsan herramientas populares como ChatGPT de OpenAI o Claude de Anthropic no fueron diseñados para ser precisos o veraces. Regularmente “alucinan” y ofrecen falsedades como si fueran hechos concretos.
Sin embargo, la gente depende cada vez más de la IA para responder a sus preguntas. Según un estudio de Harvard de 2024, la mitad de los estadounidenses de entre 14 y 22 años utilizan la IA para obtener información. Un análisis de The Washington Post descubrió que más del 17 % de los mensajes en ChatGPT son solicitudes de información.
Una de las formas en que los investigadores están intentando mejorar la información que brindan los sistemas de IA es que estos indiquen qué tan seguros están de la precisión de sus respuestas. Soy un científico informático que estudia el procesamiento del lenguaje natural y el aprendizaje automático. Mi laboratorio en la Universidad de Michigan ha desarrollado una nueva forma de obtener puntajes de confianza que mejoran la precisión de las respuestas de los chatbots de IA. Pero los puntajes de confianza solo pueden hacer hasta cierto punto.
Popular y problemático
Las empresas líderes en tecnología están integrando cada vez más la IA en los motores de búsqueda. Google ahora ofrece resúmenes de IA que aparecen como resúmenes de texto sobre la lista habitual de enlaces en cualquier resultado de búsqueda. Otros motores de búsqueda emergentes, como Perplexity, están desafiando a los motores de búsqueda tradicionales con sus propios resúmenes generados por IA.
La comodidad de estos resúmenes ha hecho que estas herramientas sean muy populares. ¿Por qué buscar en el contenido de varios sitios web cuando la IA puede proporcionar la información más pertinente en unos pocos segundos?
Las herramientas de inteligencia artificial parecen ofrecer una vía más fácil y rápida para obtener información, pero también pueden llevar a la gente por mal camino o incluso exponerla a falsedades perjudiciales. Mi laboratorio ha descubierto que incluso los modelos de inteligencia artificial más precisos alucinan en el 25 % de las afirmaciones. Esta tasa de alucinaciones es preocupante porque otras investigaciones sugieren que la inteligencia artificial puede influir en lo que la gente piensa.
Los modelos lingüísticos alucinan porque aprenden y operan con patrones estadísticos extraídos de una enorme cantidad de datos textuales, muchos de los cuales provienen de Internet. Esto significa que no están necesariamente basados en hechos del mundo real. También carecen de otras competencias humanas, como el sentido común y la capacidad de distinguir entre expresiones serias y sarcásticas.
Todo esto quedó en evidencia la primavera pasada, cuando un usuario pidió a la herramienta AI Overviews de Google que sugiriera una forma de evitar que el queso se resbalara de una pizza. La herramienta recomendó inmediatamente mezclar el queso con pegamento. Luego salió a la luz que alguien había publicado una vez esta recomendación obviamente irónica en Reddit. Como la mayoría de los grandes modelos lingüísticos, el modelo de Google probablemente había sido entrenado con información extraída de una gran cantidad de fuentes de Internet, incluido Reddit. Luego interpretó erróneamente la broma de este usuario como una sugerencia genuina.
Aunque la mayoría de los usuarios no se tomarían en serio la recomendación del pegamento, cierta información alucinada puede causar un daño real. Los motores de búsqueda de IA y los chatbots han sido sorprendidos repetidamente citando pseudociencias racistas desacreditadas como hechos. El año pasado, Perplexity AI declaró que un oficial de policía de California era culpable de un delito que no cometió.
Demostrando confianza
Desarrollar sistemas de IA que prioricen la veracidad es un desafío, pero no imposible. Una forma en que los desarrolladores de IA están abordando este problema es diseñar modelos que comuniquen su confianza en sus respuestas. Esto suele venir en forma de un puntaje de confianza, un número que indica la probabilidad de que un modelo brinde información precisa. Pero estimar la confianza de un modelo en el contenido que proporciona también es una tarea complicada.Cómo funcionan los puntajes de confianza en el aprendizaje automático.
Un método habitual para realizar esta estimación consiste en pedirle al modelo que responda repetidamente a una consulta determinada. Si el modelo es fiable, debería generar respuestas similares a la misma consulta. Si no puede responder de forma sistemática, es probable que la IA carezca de la información que necesita para responder con precisión. Con el tiempo, los resultados de estas pruebas se convierten en los puntajes de confianza de la IA para áreas temáticas específicas.
Otros métodos evalúan la precisión de la IA al incitar y entrenar directamente a los modelos para que indiquen qué tan seguros están de sus respuestas, pero esto no ofrece una verdadera rendición de cuentas. Permitir que una IA evalúe su propia confianza deja margen para que el sistema se dé a sí mismo una calificación aprobatoria y continúe ofreciendo información falsa o dañina.
Mi laboratorio ha diseñado algoritmos que asignan puntuaciones de confianza desglosando las respuestas de un gran modelo de lenguaje en afirmaciones individuales que pueden compararse automáticamente con Wikipedia. Evaluamos la equivalencia semántica entre el resultado del modelo de IA y las entradas de Wikipedia a las que se hace referencia para las afirmaciones. Nuestro enfoque permite que la IA evalúe rápidamente la precisión de todas sus afirmaciones. Por supuesto, confiar en los artículos de Wikipedia, que suelen ser precisos, pero no siempre, también tiene sus limitaciones.
Publicar los puntajes de confianza junto con las respuestas de un modelo podría ayudar a las personas a pensar de manera más crítica sobre la veracidad de la información que brindan estas herramientas. También se puede entrenar a un modelo de lenguaje para que retenga información si obtiene un puntaje de confianza que cae por debajo de un umbral establecido. Mi laboratorio también ha demostrado que los puntajes de confianza se pueden usar para ayudar a los modelos de IA a generar respuestas más precisas.
Límites de la confianza
Todavía queda un largo camino por recorrer para garantizar una IA verdaderamente precisa. La mayoría de estos enfoques suponen que la información necesaria para evaluar correctamente la precisión de una IA se puede encontrar en Wikipedia y otras bases de datos en línea.
Pero cuando no es tan fácil obtener información precisa, las estimaciones de confianza pueden ser engañosas. Para tener en cuenta casos como estos, Google ha desarrollado mecanismos especiales para evaluar las afirmaciones generadas por IA. Mi laboratorio también ha compilado un conjunto de datos de referencia de indicaciones que suelen causar alucinaciones.
Pero todos estos enfoques verifican hechos básicos: no existen métodos automatizados para evaluar otras facetas del contenido extenso, como las relaciones de causa y efecto o la capacidad de una IA para razonar sobre un texto compuesto de más de una oración.
El desarrollo de herramientas que mejoren estos elementos de la IA son pasos clave para hacer de la tecnología una fuente de información confiable y evitar los daños que puede causar la desinformación.