ChatPaper.aiChatPaper

The factuality of language models varies significantly based on the language used for inquiry. This phenomenon, known as "language-dependent factuality," highlights the challenges in developing truly multilingual AI systems. Our research demonstrates that even state-of-the-art models exhibit substantial discrepancies in factual accuracy across different languages, particularly for low-resource languages. These findings underscore the need for more robust evaluation metrics and training approaches that account for linguistic diversity and ensure consistent factual reliability across all supported languages.

Language Models' Factuality Depends on the Language of Inquiry

February 25, 2025
著者: Tushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang
cs.AI

要旨

多言語言語モデル(LM)は、言語を超えて一貫して事実知識を想起することが期待されているが、実際には、ある言語では正しい情報を持っているにもかかわらず、言語間で知識を転送することにしばしば失敗する。例えば、LMはアラビア語で質問された場合にRashed Al Shashaiがサウジアラビア出身であることを正しく識別するが、英語やスワヒリ語で質問された場合には一貫して失敗する。この制約を体系的に調査するため、13言語にわたる10,000の国関連の事実からなるベンチマークを導入し、Factual Recall Score(事実想起スコア)、Knowledge Transferability Score(知識転送可能性スコア)、Cross-Lingual Factual Knowledge Transferability Score(言語間事実知識転送可能性スコア)という3つの新しい指標を提案する。これにより、異なる言語間での事実想起と知識転送可能性を定量化する。結果は、今日の最先端LM、特に言語間一般化において、モデルが異なる言語間で効果的に知識を転送できず、使用される言語に敏感な一貫しない性能を示す根本的な弱点を明らかにした。我々の知見は、LMが言語固有の事実信頼性を認識し、言語間で最も信頼できる情報を活用する必要性を強調している。我々は、多言語知識転送の将来の研究を推進するために、ベンチマークと評価フレームワークを公開する。
English
Multilingual language models (LMs) are expected to recall factual knowledge consistently across languages, yet they often fail to transfer knowledge between languages even when they possess the correct information in one of the languages. For example, we find that an LM may correctly identify Rashed Al Shashai as being from Saudi Arabia when asked in Arabic, but consistently fails to do so when asked in English or Swahili. To systematically investigate this limitation, we introduce a benchmark of 10,000 country-related facts across 13 languages and propose three novel metrics: Factual Recall Score, Knowledge Transferability Score, and Cross-Lingual Factual Knowledge Transferability Score-to quantify factual recall and knowledge transferability in LMs across different languages. Our results reveal fundamental weaknesses in today's state-of-the-art LMs, particularly in cross-lingual generalization where models fail to transfer knowledge effectively across different languages, leading to inconsistent performance sensitive to the language used. Our findings emphasize the need for LMs to recognize language-specific factual reliability and leverage the most trustworthy information across languages. We release our benchmark and evaluation framework to drive future research in multilingual knowledge transfer.

Summary

AI-Generated Summary

PDF342February 27, 2025