¿Cuánto alucinan los LLM en diferentes idiomas? Sobre la estimación multilingüe de la alucinación de LLM en entornos reales
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
February 18, 2025
Autores: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI
Resumen
En la era de la desinformación, la alucinación —la tendencia de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a generar respuestas no factuales o infieles— representa el principal riesgo para su utilidad global. A pesar de que los LLMs se están volviendo cada vez más multilingües, la gran mayoría de las investigaciones sobre la detección y cuantificación de la alucinación en LLMs son (a) centradas en el inglés y (b) se enfocan en la traducción automática (MT) y la resumenización, tareas que son menos comunes "en la vida real" que la búsqueda abierta de información. En contraste, nuestro objetivo es cuantificar el alcance de la alucinación en LLMs a través de idiomas en tareas de respuesta a preguntas extensas y de conocimiento intensivo. Para ello, entrenamos un modelo multilingüe de detección de alucinaciones y realizamos un estudio a gran escala en 30 idiomas y 6 familias de LLMs de código abierto. Partimos de un conjunto de datos en inglés para la detección de alucinaciones y utilizamos la traducción automática para generar datos de entrenamiento (ruidosos) en otros idiomas. También anotamos manualmente datos de referencia para cinco idiomas de alto recurso; luego demostramos, para estos idiomas, que las estimaciones de las tasas de alucinación son similares entre los conjuntos de prueba de plata (generados por LLMs) y los de referencia, validando así el uso de datos de plata para estimar las tasas de alucinación en otros idiomas. Para la estimación final de las tasas, construimos un conjunto de datos de preguntas y respuestas de conocimiento intensivo para 30 idiomas con indicaciones generadas por LLMs y artículos de Wikipedia como referencias. Encontramos que, aunque los LLMs generan respuestas más largas con más tokens alucinados para idiomas de mayor recurso, no existe una correlación entre las tasas de alucinación normalizadas por longitud de los idiomas y su representación digital. Además, observamos que los LLMs más pequeños exhiben tasas de alucinación más altas que los modelos más grandes.
English
In the age of misinformation, hallucination -- the tendency of Large Language
Models (LLMs) to generate non-factual or unfaithful responses -- represents the
main risk for their global utility. Despite LLMs becoming increasingly
multilingual, the vast majority of research on detecting and quantifying LLM
hallucination are (a) English-centric and (b) focus on machine translation (MT)
and summarization, tasks that are less common ``in the wild'' than open
information seeking. In contrast, we aim to quantify the extent of LLM
hallucination across languages in knowledge-intensive long-form question
answering. To this end, we train a multilingual hallucination detection model
and conduct a large-scale study across 30 languages and 6 open-source LLM
families. We start from an English hallucination detection dataset and rely on
MT to generate (noisy) training data in other languages. We also manually
annotate gold data for five high-resource languages; we then demonstrate, for
these languages, that the estimates of hallucination rates are similar between
silver (LLM-generated) and gold test sets, validating the use of silver data
for estimating hallucination rates for other languages. For the final rates
estimation, we build a knowledge-intensive QA dataset for 30 languages with
LLM-generated prompts and Wikipedia articles as references. We find that, while
LLMs generate longer responses with more hallucinated tokens for
higher-resource languages, there is no correlation between length-normalized
hallucination rates of languages and their digital representation. Further, we
find that smaller LLMs exhibit larger hallucination rates than larger models.Summary
AI-Generated Summary