ChatPaper.aiChatPaper

Connaissances spécifiques à la langue : Les modèles sont-ils meilleurs en X qu'en anglais ?

Language Specific Knowledge: Do Models Know Better in X than in English?

May 21, 2025
Auteurs: Ishika Agarwal, Nimet Beyza Bozdag, Dilek Hakkani-Tür
cs.AI

Résumé

L'alternance codique est un phénomène courant consistant à alterner entre différentes langues dans un même énoncé, pensée ou conversation. Nous postulons que les humains pratiquent l'alternance codique parce qu'ils se sentent plus à l'aise pour aborder certains sujets et domaines dans une langue plutôt qu'une autre. Avec l'essor des modèles de langage à forte intensité de connaissances, nous nous posons la question naturelle suivante : Les modèles pourraient-ils détenir davantage de connaissances sur certains sujets dans une langue X ? Plus important encore, pourrions-nous améliorer le raisonnement en changeant la langue dans laquelle il est effectué ? Nous introduisons le terme Connaissances Spécifiques à la Langue (CSL) pour représenter ce phénomène. Comme les cultures ethniques ont tendance à se développer parallèlement à différentes langues, nous utilisons des ensembles de données spécifiques à la culture (qui contiennent des connaissances sur les normes comportementales culturelles et sociales). Nous constatons que les modèles de langage peuvent mieux performer en utilisant le raisonnement en chaîne de pensée dans certaines langues autres que l'anglais, parfois même mieux dans des langues à ressources limitées. Associé à des travaux antérieurs montrant que la similarité sémantique n'équivaut pas à la similarité représentationnelle, nous émettons l'hypothèse que les textes spécifiques à la culture apparaissent plus abondamment dans les langues correspondantes, permettant à des connaissances spécifiques de n'exister que dans certaines langues "experts". Motivés par nos résultats initiaux, nous concevons une méthodologie simple appelée LSKExtractor pour évaluer les connaissances spécifiques à la langue présentes dans un modèle de langage, puis les exploiter lors de l'inférence. Nous présentons nos résultats sur divers modèles et ensembles de données, montrant une amélioration relative moyenne de 10 % en termes de précision. Notre recherche contribue au développement open-source de modèles de langage inclusifs et plus alignés avec les contextes culturels et linguistiques dans lesquels ils sont déployés.
English
Code-switching is a common phenomenon of alternating between different languages in the same utterance, thought, or conversation. We posit that humans code-switch because they feel more comfortable talking about certain topics and domains in one language than another. With the rise of knowledge-intensive language models, we ask ourselves the next, natural question: Could models hold more knowledge on some topics in some language X? More importantly, could we improve reasoning by changing the language that reasoning is performed in? We coin the term Language Specific Knowledge (LSK) to represent this phenomenon. As ethnic cultures tend to develop alongside different languages, we employ culture-specific datasets (that contain knowledge about cultural and social behavioral norms). We find that language models can perform better when using chain-of-thought reasoning in some languages other than English, sometimes even better in low-resource languages. Paired with previous works showing that semantic similarity does not equate to representational similarity, we hypothesize that culturally specific texts occur more abundantly in corresponding languages, enabling specific knowledge to occur only in specific "expert" languages. Motivated by our initial results, we design a simple methodology called LSKExtractor to benchmark the language-specific knowledge present in a language model and, then, exploit it during inference. We show our results on various models and datasets, showing an average relative improvement of 10% in accuracy. Our research contributes to the open-source development of language models that are inclusive and more aligned with the cultural and linguistic contexts in which they are deployed.

Summary

AI-Generated Summary

PDF02May 22, 2025