Étude des hallucinations dans les conversations pour les langues à ressources limitées
Investigating Hallucination in Conversations for Low Resource Languages
July 30, 2025
papers.authors: Amit Das, Md. Najib Hasan, Souvika Sarkar, Zheng Zhang, Fatemeh Jamshidi, Tathagata Bhattacharya, Nilanjana Raychawdhury, Dongji Feng, Vinija Jain, Aman Chadha
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont démontré une remarquable capacité à générer des textes ressemblant étroitement à ceux produits par les humains. Cependant, ils génèrent souvent des déclarations factuellement incorrectes, un problème communément appelé « hallucination ». La résolution de ce problème est cruciale pour améliorer la fiabilité et l'efficacité des LLMs. Alors que de nombreuses recherches se sont concentrées sur les hallucinations en anglais, notre étude étend cette investigation à des données conversationnelles dans trois langues : le hindi, le farsi et le mandarin. Nous proposons une analyse approfondie d'un ensemble de données pour examiner les erreurs factuelles et linguistiques dans ces langues pour les modèles GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 et Qwen-3. Nous avons constaté que les LLMs produisent très peu de réponses hallucinées en mandarin, mais génèrent un nombre significativement plus élevé d'hallucinations en hindi et en farsi.
English
Large Language Models (LLMs) have demonstrated remarkable proficiency in
generating text that closely resemble human writing. However, they often
generate factually incorrect statements, a problem typically referred to as
'hallucination'. Addressing hallucination is crucial for enhancing the
reliability and effectiveness of LLMs. While much research has focused on
hallucinations in English, our study extends this investigation to
conversational data in three languages: Hindi, Farsi, and Mandarin. We offer a
comprehensive analysis of a dataset to examine both factual and linguistic
errors in these languages for GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0,
DeepSeek-R1 and Qwen-3. We found that LLMs produce very few hallucinated
responses in Mandarin but generate a significantly higher number of
hallucinations in Hindi and Farsi.