Dans quelle mesure les LLM hallucinent-ils à travers les langues ? Une estimation multilingue des hallucinations des LLM en conditions réelles
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
February 18, 2025
Auteurs: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI
Résumé
À l'ère de la désinformation, l'hallucination -- la tendance des grands modèles de langage (LLM) à générer des réponses non factuelles ou infidèles -- représente le principal risque pour leur utilité globale. Bien que les LLM deviennent de plus en plus multilingues, la grande majorité des recherches sur la détection et la quantification des hallucinations des LLM sont (a) centrées sur l'anglais et (b) se concentrent sur la traduction automatique (MT) et la synthèse, des tâches moins courantes « dans la nature » que la recherche ouverte d'informations. En revanche, nous visons à quantifier l'étendue des hallucinations des LLM à travers les langues dans le cadre de la réponse à des questions longues et intensives en connaissances. Pour ce faire, nous entraînons un modèle multilingue de détection des hallucinations et menons une étude à grande échelle sur 30 langues et 6 familles de LLM open-source. Nous partons d'un ensemble de données de détection des hallucinations en anglais et nous appuyons sur la MT pour générer des données d'entraînement (bruitées) dans d'autres langues. Nous annotons également manuellement des données de référence pour cinq langues à ressources élevées ; nous démontrons ensuite, pour ces langues, que les estimations des taux d'hallucination sont similaires entre les ensembles de test argentés (générés par LLM) et les ensembles de test de référence, validant ainsi l'utilisation de données argentées pour estimer les taux d'hallucination pour d'autres langues. Pour l'estimation finale des taux, nous construisons un ensemble de données de questions-réponses intensives en connaissances pour 30 langues avec des invites générées par LLM et des articles de Wikipédia comme références. Nous constatons que, bien que les LLM génèrent des réponses plus longues avec plus de tokens hallucinés pour les langues à ressources élevées, il n'y a pas de corrélation entre les taux d'hallucination normalisés par la longueur des langues et leur représentation numérique. De plus, nous constatons que les LLM plus petits présentent des taux d'hallucination plus élevés que les modèles plus grands.
English
In the age of misinformation, hallucination -- the tendency of Large Language
Models (LLMs) to generate non-factual or unfaithful responses -- represents the
main risk for their global utility. Despite LLMs becoming increasingly
multilingual, the vast majority of research on detecting and quantifying LLM
hallucination are (a) English-centric and (b) focus on machine translation (MT)
and summarization, tasks that are less common ``in the wild'' than open
information seeking. In contrast, we aim to quantify the extent of LLM
hallucination across languages in knowledge-intensive long-form question
answering. To this end, we train a multilingual hallucination detection model
and conduct a large-scale study across 30 languages and 6 open-source LLM
families. We start from an English hallucination detection dataset and rely on
MT to generate (noisy) training data in other languages. We also manually
annotate gold data for five high-resource languages; we then demonstrate, for
these languages, that the estimates of hallucination rates are similar between
silver (LLM-generated) and gold test sets, validating the use of silver data
for estimating hallucination rates for other languages. For the final rates
estimation, we build a knowledge-intensive QA dataset for 30 languages with
LLM-generated prompts and Wikipedia articles as references. We find that, while
LLMs generate longer responses with more hallucinated tokens for
higher-resource languages, there is no correlation between length-normalized
hallucination rates of languages and their digital representation. Further, we
find that smaller LLMs exhibit larger hallucination rates than larger models.Summary
AI-Generated Summary