ChatPaper.aiChatPaper

Étude des hallucinations dans les conversations pour les langues à ressources limitées

Investigating Hallucination in Conversations for Low Resource Languages

July 30, 2025
papers.authors: Amit Das, Md. Najib Hasan, Souvika Sarkar, Zheng Zhang, Fatemeh Jamshidi, Tathagata Bhattacharya, Nilanjana Raychawdhury, Dongji Feng, Vinija Jain, Aman Chadha
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLMs) ont démontré une remarquable capacité à générer des textes ressemblant étroitement à ceux produits par les humains. Cependant, ils génèrent souvent des déclarations factuellement incorrectes, un problème communément appelé « hallucination ». La résolution de ce problème est cruciale pour améliorer la fiabilité et l'efficacité des LLMs. Alors que de nombreuses recherches se sont concentrées sur les hallucinations en anglais, notre étude étend cette investigation à des données conversationnelles dans trois langues : le hindi, le farsi et le mandarin. Nous proposons une analyse approfondie d'un ensemble de données pour examiner les erreurs factuelles et linguistiques dans ces langues pour les modèles GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 et Qwen-3. Nous avons constaté que les LLMs produisent très peu de réponses hallucinées en mandarin, mais génèrent un nombre significativement plus élevé d'hallucinations en hindi et en farsi.
English
Large Language Models (LLMs) have demonstrated remarkable proficiency in generating text that closely resemble human writing. However, they often generate factually incorrect statements, a problem typically referred to as 'hallucination'. Addressing hallucination is crucial for enhancing the reliability and effectiveness of LLMs. While much research has focused on hallucinations in English, our study extends this investigation to conversational data in three languages: Hindi, Farsi, and Mandarin. We offer a comprehensive analysis of a dataset to examine both factual and linguistic errors in these languages for GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 and Qwen-3. We found that LLMs produce very few hallucinated responses in Mandarin but generate a significantly higher number of hallucinations in Hindi and Farsi.
PDF52August 4, 2025