Wie stark halluzinieren LLMs über verschiedene Sprachen hinweg? Zur multilingalen Schätzung von LLM-Halluzinationen in der Praxis
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
February 18, 2025
Autoren: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI
Zusammenfassung
Im Zeitalter der Fehlinformationen stellt die Halluzination – die Tendenz von Large Language Models (LLMs), nicht-faktische oder unzuverlässige Antworten zu generieren – das Hauptrisiko für ihren globalen Nutzen dar. Obwohl LLMs zunehmend mehrsprachig werden, konzentriert sich die überwiegende Mehrheit der Forschung zur Erkennung und Quantifizierung von LLM-Halluzinationen (a) auf Englisch und (b) auf maschinelle Übersetzung (MT) und Zusammenfassung, Aufgaben, die „in der Praxis“ seltener vorkommen als die offene Informationssuche. Im Gegensatz dazu zielen wir darauf ab, das Ausmaß der LLM-Halluzinationen in wissensintensiven, langen Frage-Antwort-Szenarien über verschiedene Sprachen hinweg zu quantifizieren. Zu diesem Zweck trainieren wir ein mehrsprachiges Modell zur Erkennung von Halluzinationen und führen eine groß angelegte Studie über 30 Sprachen und 6 Open-Source-LLM-Familien durch. Wir beginnen mit einem englischen Datensatz zur Erkennung von Halluzinationen und nutzen MT, um (verrauschte) Trainingsdaten in anderen Sprachen zu generieren. Zudem annotieren wir manuell Gold-Daten für fünf Hochressourcen-Sprachen; wir zeigen dann für diese Sprachen, dass die Schätzungen der Halluzinationsraten zwischen silbernen (LLM-generierten) und goldenen Testdatensätzen ähnlich sind, was die Verwendung von silbernen Daten zur Schätzung der Halluzinationsraten für andere Sprachen validiert. Für die endgültige Schätzung der Raten erstellen wir einen wissensintensiven Frage-Antwort-Datensatz für 30 Sprachen mit LLM-generierten Prompts und Wikipedia-Artikeln als Referenzen. Wir stellen fest, dass LLMs zwar längere Antworten mit mehr halluzinierten Tokens für Hochressourcen-Sprachen generieren, es jedoch keine Korrelation zwischen den längen-normalisierten Halluzinationsraten der Sprachen und ihrer digitalen Repräsentation gibt. Darüber hinaus zeigen wir, dass kleinere LLMs höhere Halluzinationsraten aufweisen als größere Modelle.
English
In the age of misinformation, hallucination -- the tendency of Large Language
Models (LLMs) to generate non-factual or unfaithful responses -- represents the
main risk for their global utility. Despite LLMs becoming increasingly
multilingual, the vast majority of research on detecting and quantifying LLM
hallucination are (a) English-centric and (b) focus on machine translation (MT)
and summarization, tasks that are less common ``in the wild'' than open
information seeking. In contrast, we aim to quantify the extent of LLM
hallucination across languages in knowledge-intensive long-form question
answering. To this end, we train a multilingual hallucination detection model
and conduct a large-scale study across 30 languages and 6 open-source LLM
families. We start from an English hallucination detection dataset and rely on
MT to generate (noisy) training data in other languages. We also manually
annotate gold data for five high-resource languages; we then demonstrate, for
these languages, that the estimates of hallucination rates are similar between
silver (LLM-generated) and gold test sets, validating the use of silver data
for estimating hallucination rates for other languages. For the final rates
estimation, we build a knowledge-intensive QA dataset for 30 languages with
LLM-generated prompts and Wikipedia articles as references. We find that, while
LLMs generate longer responses with more hallucinated tokens for
higher-resource languages, there is no correlation between length-normalized
hallucination rates of languages and their digital representation. Further, we
find that smaller LLMs exhibit larger hallucination rates than larger models.Summary
AI-Generated Summary