언어 모델의 사실성은 질문 언어에 따라 달라진다
Language Models' Factuality Depends on the Language of Inquiry
February 25, 2025
저자: Tushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang
cs.AI
초록
다국어 언어 모델(LM)은 여러 언어에 걸쳐 사실적 지식을 일관되게 기억할 것으로 기대되지만, 종종 한 언어에서는 정확한 정보를 가지고 있음에도 불구하고 다른 언어 간의 지식 전달에 실패합니다. 예를 들어, LM이 아랍어로 질문받았을 때 Rashed Al Shashai가 사우디아라비아 출신임을 정확히 식별할 수 있지만, 영어나 스와힐리어로 질문받았을 때는 이를 지속적으로 실패하는 경우가 있습니다. 이러한 한계를 체계적으로 조사하기 위해, 우리는 13개 언어에 걸친 10,000개의 국가 관련 사실로 구성된 벤치마크를 도입하고, LM의 사실 기억 능력과 지식 전달 능력을 정량화하기 위해 세 가지 새로운 지표를 제안합니다: 사실 기억 점수(Factual Recall Score), 지식 전달 가능성 점수(Knowledge Transferability Score), 그리고 교차 언어 사실 지식 전달 가능성 점수(Cross-Lingual Factual Knowledge Transferability Score). 우리의 결과는 최신 최첨단 LM들이 특히 교차 언어 일반화에서 지식을 효과적으로 전달하지 못해 사용된 언어에 따라 성능이 일관되지 않다는 근본적인 약점을 보여줍니다. 이러한 발견은 LM이 언어별 사실적 신뢰도를 인식하고 여러 언어에 걸쳐 가장 신뢰할 수 있는 정보를 활용할 필요성을 강조합니다. 우리는 다국어 지식 전달 분야의 미래 연구를 촉진하기 위해 벤치마크와 평가 프레임워크를 공개합니다.
English
Multilingual language models (LMs) are expected to recall factual knowledge
consistently across languages, yet they often fail to transfer knowledge
between languages even when they possess the correct information in one of the
languages. For example, we find that an LM may correctly identify Rashed Al
Shashai as being from Saudi Arabia when asked in Arabic, but consistently fails
to do so when asked in English or Swahili. To systematically investigate this
limitation, we introduce a benchmark of 10,000 country-related facts across 13
languages and propose three novel metrics: Factual Recall Score, Knowledge
Transferability Score, and Cross-Lingual Factual Knowledge Transferability
Score-to quantify factual recall and knowledge transferability in LMs across
different languages. Our results reveal fundamental weaknesses in today's
state-of-the-art LMs, particularly in cross-lingual generalization where models
fail to transfer knowledge effectively across different languages, leading to
inconsistent performance sensitive to the language used. Our findings emphasize
the need for LMs to recognize language-specific factual reliability and
leverage the most trustworthy information across languages. We release our
benchmark and evaluation framework to drive future research in multilingual
knowledge transfer.Summary
AI-Generated Summary