低リソース言語における会話の幻覚現象の調査
Investigating Hallucination in Conversations for Low Resource Languages
July 30, 2025
著者: Amit Das, Md. Najib Hasan, Souvika Sarkar, Zheng Zhang, Fatemeh Jamshidi, Tathagata Bhattacharya, Nilanjana Raychawdhury, Dongji Feng, Vinija Jain, Aman Chadha
cs.AI
要旨
大規模言語モデル(LLM)は、人間の文章に極めて近いテキストを生成する能力において顕著な熟達度を示しています。しかし、事実に反する記述を生成することが多く、これは一般的に「幻覚(hallucination)」と呼ばれる問題です。幻覚に対処することは、LLMの信頼性と有効性を向上させるために極めて重要です。これまでの研究の多くは英語における幻覚に焦点を当ててきましたが、本研究では、ヒンディー語、ペルシャ語、中国語(北京語)の会話データに調査を拡張します。GPT-3.5、GPT-4o、Llama-3.1、Gemma-2.0、DeepSeek-R1、Qwen-3を対象に、これらの言語における事実的および言語的エラーを包括的に分析しました。その結果、LLMは中国語では幻覚的な応答が非常に少ない一方、ヒンディー語とペルシャ語では幻覚が大幅に多く生成されることが明らかになりました。
English
Large Language Models (LLMs) have demonstrated remarkable proficiency in
generating text that closely resemble human writing. However, they often
generate factually incorrect statements, a problem typically referred to as
'hallucination'. Addressing hallucination is crucial for enhancing the
reliability and effectiveness of LLMs. While much research has focused on
hallucinations in English, our study extends this investigation to
conversational data in three languages: Hindi, Farsi, and Mandarin. We offer a
comprehensive analysis of a dataset to examine both factual and linguistic
errors in these languages for GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0,
DeepSeek-R1 and Qwen-3. We found that LLMs produce very few hallucinated
responses in Mandarin but generate a significantly higher number of
hallucinations in Hindi and Farsi.