De feitelijkheid van taalmodelen hangt af van de taal van bevraging.
Language Models' Factuality Depends on the Language of Inquiry
February 25, 2025
Auteurs: Tushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang
cs.AI
Samenvatting
Meertalige taalmodellen (LMs) worden verwacht feitelijke kennis consistent te onthouden in verschillende talen, maar ze slagen er vaak niet in om kennis tussen talen over te dragen, zelfs wanneer ze de juiste informatie in één van de talen bezitten. Zo vinden we bijvoorbeeld dat een LM Rashed Al Shashai correct kan identificeren als afkomstig uit Saudi-Arabië wanneer hij in het Arabisch wordt gevraagd, maar consistent faalt om dit te doen wanneer hij in het Engels of Swahili wordt gevraagd. Om deze beperking systematisch te onderzoeken, introduceren we een benchmark van 10.000 landgerelateerde feiten in 13 talen en stellen we drie nieuwe metrieken voor: Factual Recall Score, Knowledge Transferability Score en Cross-Lingual Factual Knowledge Transferability Score om feitelijke herinnering en kennisoverdraagbaarheid in LMs over verschillende talen te kwantificeren. Onze resultaten onthullen fundamentele zwaktes in de huidige state-of-the-art LMs, met name in cross-linguale generalisatie waarbij modellen er niet in slagen kennis effectief over te dragen tussen verschillende talen, wat leidt tot inconsistente prestaties die gevoelig zijn voor de gebruikte taal. Onze bevindingen benadrukken de noodzaak voor LMs om taal-specifieke feitelijke betrouwbaarheid te herkennen en de meest betrouwbare informatie over talen heen te benutten. We publiceren onze benchmark en evaluatieframework om toekomstig onderzoek in meertalige kennisoverdracht te stimuleren.
English
Multilingual language models (LMs) are expected to recall factual knowledge
consistently across languages, yet they often fail to transfer knowledge
between languages even when they possess the correct information in one of the
languages. For example, we find that an LM may correctly identify Rashed Al
Shashai as being from Saudi Arabia when asked in Arabic, but consistently fails
to do so when asked in English or Swahili. To systematically investigate this
limitation, we introduce a benchmark of 10,000 country-related facts across 13
languages and propose three novel metrics: Factual Recall Score, Knowledge
Transferability Score, and Cross-Lingual Factual Knowledge Transferability
Score-to quantify factual recall and knowledge transferability in LMs across
different languages. Our results reveal fundamental weaknesses in today's
state-of-the-art LMs, particularly in cross-lingual generalization where models
fail to transfer knowledge effectively across different languages, leading to
inconsistent performance sensitive to the language used. Our findings emphasize
the need for LMs to recognize language-specific factual reliability and
leverage the most trustworthy information across languages. We release our
benchmark and evaluation framework to drive future research in multilingual
knowledge transfer.