ChatPaper.aiChatPaper

La factualité des modèles de langage dépend de la langue d'interrogation

Language Models' Factuality Depends on the Language of Inquiry

February 25, 2025
Auteurs: Tushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang
cs.AI

Résumé

Les modèles de langage multilingues (LM) sont censés mémoriser les connaissances factuelles de manière cohérente à travers les langues, mais ils échouent souvent à transférer les connaissances entre les langues, même lorsqu'ils possèdent l'information correcte dans l'une d'elles. Par exemple, nous constatons qu'un LM peut identifier correctement Rashed Al Shashai comme étant originaire d'Arabie saoudite lorsqu'on l'interroge en arabe, mais échoue systématiquement à le faire lorsqu'on l'interroge en anglais ou en swahili. Pour étudier systématiquement cette limitation, nous introduisons un benchmark de 10 000 faits liés aux pays dans 13 langues et proposons trois nouvelles métriques : le Score de Rappel Factuel, le Score de Transférabilité des Connaissances et le Score de Transférabilité des Connaissances Factuelles Translinguales - afin de quantifier le rappel factuel et la transférabilité des connaissances dans les LM à travers différentes langues. Nos résultats révèlent des faiblesses fondamentales dans les LM actuels de pointe, en particulier dans la généralisation translinguale où les modèles échouent à transférer efficacement les connaissances entre différentes langues, conduisant à une performance incohérente sensible à la langue utilisée. Nos conclusions soulignent la nécessité pour les LM de reconnaître la fiabilité factuelle spécifique à chaque langue et d'exploiter les informations les plus fiables à travers les langues. Nous publions notre benchmark et cadre d'évaluation pour stimuler les recherches futures sur le transfert de connaissances multilingues.
English
Multilingual language models (LMs) are expected to recall factual knowledge consistently across languages, yet they often fail to transfer knowledge between languages even when they possess the correct information in one of the languages. For example, we find that an LM may correctly identify Rashed Al Shashai as being from Saudi Arabia when asked in Arabic, but consistently fails to do so when asked in English or Swahili. To systematically investigate this limitation, we introduce a benchmark of 10,000 country-related facts across 13 languages and propose three novel metrics: Factual Recall Score, Knowledge Transferability Score, and Cross-Lingual Factual Knowledge Transferability Score-to quantify factual recall and knowledge transferability in LMs across different languages. Our results reveal fundamental weaknesses in today's state-of-the-art LMs, particularly in cross-lingual generalization where models fail to transfer knowledge effectively across different languages, leading to inconsistent performance sensitive to the language used. Our findings emphasize the need for LMs to recognize language-specific factual reliability and leverage the most trustworthy information across languages. We release our benchmark and evaluation framework to drive future research in multilingual knowledge transfer.

Summary

AI-Generated Summary

PDF342February 27, 2025