La factualité des modèles de langage dépend de la langue d'interrogation
Language Models' Factuality Depends on the Language of Inquiry
February 25, 2025
Auteurs: Tushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang
cs.AI
Résumé
Les modèles de langage multilingues (LM) sont censés mémoriser les connaissances factuelles de manière cohérente à travers les langues, mais ils échouent souvent à transférer les connaissances entre les langues, même lorsqu'ils possèdent l'information correcte dans l'une d'elles. Par exemple, nous constatons qu'un LM peut identifier correctement Rashed Al Shashai comme étant originaire d'Arabie saoudite lorsqu'on l'interroge en arabe, mais échoue systématiquement à le faire lorsqu'on l'interroge en anglais ou en swahili. Pour étudier systématiquement cette limitation, nous introduisons un benchmark de 10 000 faits liés aux pays dans 13 langues et proposons trois nouvelles métriques : le Score de Rappel Factuel, le Score de Transférabilité des Connaissances et le Score de Transférabilité des Connaissances Factuelles Translinguales - afin de quantifier le rappel factuel et la transférabilité des connaissances dans les LM à travers différentes langues. Nos résultats révèlent des faiblesses fondamentales dans les LM actuels de pointe, en particulier dans la généralisation translinguale où les modèles échouent à transférer efficacement les connaissances entre différentes langues, conduisant à une performance incohérente sensible à la langue utilisée. Nos conclusions soulignent la nécessité pour les LM de reconnaître la fiabilité factuelle spécifique à chaque langue et d'exploiter les informations les plus fiables à travers les langues. Nous publions notre benchmark et cadre d'évaluation pour stimuler les recherches futures sur le transfert de connaissances multilingues.
English
Multilingual language models (LMs) are expected to recall factual knowledge
consistently across languages, yet they often fail to transfer knowledge
between languages even when they possess the correct information in one of the
languages. For example, we find that an LM may correctly identify Rashed Al
Shashai as being from Saudi Arabia when asked in Arabic, but consistently fails
to do so when asked in English or Swahili. To systematically investigate this
limitation, we introduce a benchmark of 10,000 country-related facts across 13
languages and propose three novel metrics: Factual Recall Score, Knowledge
Transferability Score, and Cross-Lingual Factual Knowledge Transferability
Score-to quantify factual recall and knowledge transferability in LMs across
different languages. Our results reveal fundamental weaknesses in today's
state-of-the-art LMs, particularly in cross-lingual generalization where models
fail to transfer knowledge effectively across different languages, leading to
inconsistent performance sensitive to the language used. Our findings emphasize
the need for LMs to recognize language-specific factual reliability and
leverage the most trustworthy information across languages. We release our
benchmark and evaluation framework to drive future research in multilingual
knowledge transfer.Summary
AI-Generated Summary