Quanto os LLMs Alucinam em Diferentes Idiomas? Sobre a Estimativa Multilíngue de Alucinação de LLMs em Cenários Reais
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
February 18, 2025
Autores: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI
Resumo
Na era da desinformação, a alucinação — a tendência dos Modelos de Linguagem de Grande Escala (LLMs) de gerar respostas não factuais ou infiéis — representa o principal risco para sua utilidade global. Apesar de os LLMs estarem se tornando cada vez mais multilíngues, a grande maioria das pesquisas sobre detecção e quantificação de alucinações em LLMs é (a) centrada no inglês e (b) focada em tradução automática (MT) e sumarização, tarefas menos comuns "no mundo real" do que a busca aberta por informações. Em contraste, nosso objetivo é quantificar a extensão da alucinação em LLMs em diversos idiomas em tarefas de resposta a perguntas de longa duração e intensivas em conhecimento. Para isso, treinamos um modelo de detecção de alucinação multilíngue e conduzimos um estudo em larga escala abrangendo 30 idiomas e 6 famílias de LLMs de código aberto. Partimos de um conjunto de dados de detecção de alucinação em inglês e utilizamos MT para gerar dados de treinamento (ruidosos) em outros idiomas. Também anotamos manualmente dados de referência (gold) para cinco idiomas de alto recurso; em seguida, demonstramos, para esses idiomas, que as estimativas das taxas de alucinação são semelhantes entre conjuntos de teste de prata (gerados por LLMs) e de ouro, validando o uso de dados de prata para estimar taxas de alucinação em outros idiomas. Para a estimativa final das taxas, construímos um conjunto de dados de perguntas e respostas intensivas em conhecimento para 30 idiomas, com prompts gerados por LLMs e artigos da Wikipedia como referências. Descobrimos que, embora os LLMs gerem respostas mais longas com mais tokens alucinados para idiomas de maior recurso, não há correlação entre as taxas de alucinação normalizadas por comprimento dos idiomas e sua representação digital. Além disso, observamos que LLMs menores exibem taxas de alucinação maiores do que modelos maiores.
English
In the age of misinformation, hallucination -- the tendency of Large Language
Models (LLMs) to generate non-factual or unfaithful responses -- represents the
main risk for their global utility. Despite LLMs becoming increasingly
multilingual, the vast majority of research on detecting and quantifying LLM
hallucination are (a) English-centric and (b) focus on machine translation (MT)
and summarization, tasks that are less common ``in the wild'' than open
information seeking. In contrast, we aim to quantify the extent of LLM
hallucination across languages in knowledge-intensive long-form question
answering. To this end, we train a multilingual hallucination detection model
and conduct a large-scale study across 30 languages and 6 open-source LLM
families. We start from an English hallucination detection dataset and rely on
MT to generate (noisy) training data in other languages. We also manually
annotate gold data for five high-resource languages; we then demonstrate, for
these languages, that the estimates of hallucination rates are similar between
silver (LLM-generated) and gold test sets, validating the use of silver data
for estimating hallucination rates for other languages. For the final rates
estimation, we build a knowledge-intensive QA dataset for 30 languages with
LLM-generated prompts and Wikipedia articles as references. We find that, while
LLMs generate longer responses with more hallucinated tokens for
higher-resource languages, there is no correlation between length-normalized
hallucination rates of languages and their digital representation. Further, we
find that smaller LLMs exhibit larger hallucination rates than larger models.Summary
AI-Generated Summary