Hoeveel Hallucineren LLMs in Verschillende Talen? Over Multilinguale Schatting van LLM-Hallucinatie in de Praktijk
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
February 18, 2025
Auteurs: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI
Samenvatting
In het tijdperk van desinformatie vormt hallucinatie – de neiging van Large Language Models (LLMs) om niet-feitelijke of onbetrouwbare antwoorden te genereren – het grootste risico voor hun wereldwijde nut. Hoewel LLMs steeds meer meertalig worden, is het overgrote deel van het onderzoek naar het detecteren en kwantificeren van LLM-hallucinatie (a) Engelstalig en (b) gericht op machinevertaling (MT) en samenvatting, taken die minder vaak voorkomen "in het wild" dan open informatiezoeken. Daarentegen streven wij ernaar de omvang van LLM-hallucinatie in verschillende talen te kwantificeren in kennisintensieve, langere vraag-antwoordscenario's. Hiertoe trainen we een meertalig model voor het detecteren van hallucinatie en voeren we een grootschalige studie uit over 30 talen en 6 open-source LLM-families. We beginnen met een Engelstalige dataset voor het detecteren van hallucinatie en vertrouwen op MT om (ruwe) trainingsdata in andere talen te genereren. We annoteren ook handmatig gouden data voor vijf talen met veel bronnen; we tonen vervolgens aan, voor deze talen, dat de schattingen van hallucinatiepercentages vergelijkbaar zijn tussen zilveren (LLM-gegenereerde) en gouden testdatasets, wat het gebruik van zilveren data voor het schatten van hallucinatiepercentages voor andere talen valideert. Voor de uiteindelijke schatting van de percentages bouwen we een kennisintensieve vraag-antwoorddataset voor 30 talen met LLM-gegenereerde prompts en Wikipedia-artikelen als referenties. We ontdekken dat, hoewel LLMs langere antwoorden genereren met meer gehallucineerde tokens voor talen met meer bronnen, er geen correlatie is tussen de lengte-genormaliseerde hallucinatiepercentages van talen en hun digitale representatie. Verder vinden we dat kleinere LLMs hogere hallucinatiepercentages vertonen dan grotere modellen.
English
In the age of misinformation, hallucination -- the tendency of Large Language
Models (LLMs) to generate non-factual or unfaithful responses -- represents the
main risk for their global utility. Despite LLMs becoming increasingly
multilingual, the vast majority of research on detecting and quantifying LLM
hallucination are (a) English-centric and (b) focus on machine translation (MT)
and summarization, tasks that are less common ``in the wild'' than open
information seeking. In contrast, we aim to quantify the extent of LLM
hallucination across languages in knowledge-intensive long-form question
answering. To this end, we train a multilingual hallucination detection model
and conduct a large-scale study across 30 languages and 6 open-source LLM
families. We start from an English hallucination detection dataset and rely on
MT to generate (noisy) training data in other languages. We also manually
annotate gold data for five high-resource languages; we then demonstrate, for
these languages, that the estimates of hallucination rates are similar between
silver (LLM-generated) and gold test sets, validating the use of silver data
for estimating hallucination rates for other languages. For the final rates
estimation, we build a knowledge-intensive QA dataset for 30 languages with
LLM-generated prompts and Wikipedia articles as references. We find that, while
LLMs generate longer responses with more hallucinated tokens for
higher-resource languages, there is no correlation between length-normalized
hallucination rates of languages and their digital representation. Further, we
find that smaller LLMs exhibit larger hallucination rates than larger models.Summary
AI-Generated Summary