Cómo las alucinaciones de los modelos de lenguaje pueden intensificarse progresivamente
How Language Model Hallucinations Can Snowball
May 22, 2023
Autores: Muru Zhang, Ofir Press, William Merrill, Alisa Liu, Noah A. Smith
cs.AI
Resumen
Un riesgo importante al utilizar modelos de lenguaje en aplicaciones prácticas es su tendencia a generar afirmaciones incorrectas, conocidas como alucinaciones. Estas alucinaciones suelen atribuirse a lagunas de conocimiento en los modelos de lenguaje, pero planteamos la hipótesis de que, en algunos casos, al justificar alucinaciones previamente generadas, los modelos emiten afirmaciones falsas que podrían reconocer por separado como incorrectas. Construimos tres conjuntos de datos de preguntas y respuestas en los que ChatGPT y GPT-4 a menudo proporcionan una respuesta incorrecta y ofrecen una explicación que incluye al menos una afirmación errónea. De manera crucial, encontramos que ChatGPT y GPT-4 pueden identificar el 67% y el 87% de sus propios errores, respectivamente. Nos referimos a este fenómeno como la "bola de nieve de alucinaciones": un modelo de lenguaje se compromete en exceso con errores iniciales, lo que lleva a más errores que, de otro modo, no cometería.
English
A major risk of using language models in practical applications is their
tendency to hallucinate incorrect statements. Hallucinations are often
attributed to knowledge gaps in LMs, but we hypothesize that in some cases,
when justifying previously generated hallucinations, LMs output false claims
that they can separately recognize as incorrect. We construct three
question-answering datasets where ChatGPT and GPT-4 often state an incorrect
answer and offer an explanation with at least one incorrect claim. Crucially,
we find that ChatGPT and GPT-4 can identify 67% and 87% of their own mistakes,
respectively. We refer to this phenomenon as hallucination snowballing: an LM
over-commits to early mistakes, leading to more mistakes that it otherwise
would not make.