Quanto Allucinano i LLM tra le Lingue? Sulla Stima Multilingue delle Allucinazioni dei LLM nel Mondo Reale
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
February 18, 2025
Autori: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI
Abstract
Nell'era della disinformazione, l'allucinazione -- la tendenza dei Modelli Linguistici di Grande Dimensione (LLM) a generare risposte non fattuali o infedeli -- rappresenta il principale rischio per la loro utilità globale. Nonostante gli LLM stiano diventando sempre più multilingue, la stragrande maggioranza della ricerca sul rilevamento e la quantificazione dell'allucinazione negli LLM è (a) centrata sull'inglese e (b) si concentra sulla traduzione automatica (MT) e sulla sintesi, compiti meno comuni "nel mondo reale" rispetto alla ricerca aperta di informazioni. Al contrario, il nostro obiettivo è quantificare l'estensione dell'allucinazione degli LLM attraverso le lingue nel contesto di risposte a domande lunghe e ad alta intensità di conoscenza. A tal fine, addestriamo un modello multilingue per il rilevamento delle allucinazioni e conduciamo uno studio su larga scala in 30 lingue e 6 famiglie di LLM open-source. Partiamo da un dataset in inglese per il rilevamento delle allucinazioni e ci affidiamo alla MT per generare dati di addestramento (rumorosi) in altre lingue. Annotiamo manualmente dati di riferimento per cinque lingue ad alta risorsa; dimostriamo poi, per queste lingue, che le stime dei tassi di allucinazione sono simili tra i set di test silver (generati da LLM) e quelli gold, validando così l'uso dei dati silver per stimare i tassi di allucinazione per altre lingue. Per la stima finale dei tassi, costruiamo un dataset di QA ad alta intensità di conoscenza per 30 lingue con prompt generati da LLM e articoli di Wikipedia come riferimenti. Scopriamo che, sebbene gli LLM generino risposte più lunghe con un numero maggiore di token allucinati per le lingue ad alta risorsa, non esiste una correlazione tra i tassi di allucinazione normalizzati per lunghezza delle lingue e la loro rappresentazione digitale. Inoltre, osserviamo che i modelli LLM più piccoli presentano tassi di allucinazione più elevati rispetto ai modelli più grandi.
English
In the age of misinformation, hallucination -- the tendency of Large Language
Models (LLMs) to generate non-factual or unfaithful responses -- represents the
main risk for their global utility. Despite LLMs becoming increasingly
multilingual, the vast majority of research on detecting and quantifying LLM
hallucination are (a) English-centric and (b) focus on machine translation (MT)
and summarization, tasks that are less common ``in the wild'' than open
information seeking. In contrast, we aim to quantify the extent of LLM
hallucination across languages in knowledge-intensive long-form question
answering. To this end, we train a multilingual hallucination detection model
and conduct a large-scale study across 30 languages and 6 open-source LLM
families. We start from an English hallucination detection dataset and rely on
MT to generate (noisy) training data in other languages. We also manually
annotate gold data for five high-resource languages; we then demonstrate, for
these languages, that the estimates of hallucination rates are similar between
silver (LLM-generated) and gold test sets, validating the use of silver data
for estimating hallucination rates for other languages. For the final rates
estimation, we build a knowledge-intensive QA dataset for 30 languages with
LLM-generated prompts and Wikipedia articles as references. We find that, while
LLMs generate longer responses with more hallucinated tokens for
higher-resource languages, there is no correlation between length-normalized
hallucination rates of languages and their digital representation. Further, we
find that smaller LLMs exhibit larger hallucination rates than larger models.Summary
AI-Generated Summary