Connaissances spécifiques à la langue : Les modèles sont-ils meilleurs en X qu'en anglais ?
Language Specific Knowledge: Do Models Know Better in X than in English?
May 21, 2025
Auteurs: Ishika Agarwal, Nimet Beyza Bozdag, Dilek Hakkani-Tür
cs.AI
Résumé
L'alternance codique est un phénomène courant consistant à alterner entre différentes langues dans un même énoncé, pensée ou conversation. Nous postulons que les humains pratiquent l'alternance codique parce qu'ils se sentent plus à l'aise pour aborder certains sujets et domaines dans une langue plutôt qu'une autre. Avec l'essor des modèles de langage à forte intensité de connaissances, nous nous posons la question naturelle suivante : Les modèles pourraient-ils détenir davantage de connaissances sur certains sujets dans une langue X ? Plus important encore, pourrions-nous améliorer le raisonnement en changeant la langue dans laquelle il est effectué ? Nous introduisons le terme Connaissances Spécifiques à la Langue (CSL) pour représenter ce phénomène. Comme les cultures ethniques ont tendance à se développer parallèlement à différentes langues, nous utilisons des ensembles de données spécifiques à la culture (qui contiennent des connaissances sur les normes comportementales culturelles et sociales). Nous constatons que les modèles de langage peuvent mieux performer en utilisant le raisonnement en chaîne de pensée dans certaines langues autres que l'anglais, parfois même mieux dans des langues à ressources limitées. Associé à des travaux antérieurs montrant que la similarité sémantique n'équivaut pas à la similarité représentationnelle, nous émettons l'hypothèse que les textes spécifiques à la culture apparaissent plus abondamment dans les langues correspondantes, permettant à des connaissances spécifiques de n'exister que dans certaines langues "experts". Motivés par nos résultats initiaux, nous concevons une méthodologie simple appelée LSKExtractor pour évaluer les connaissances spécifiques à la langue présentes dans un modèle de langage, puis les exploiter lors de l'inférence. Nous présentons nos résultats sur divers modèles et ensembles de données, montrant une amélioration relative moyenne de 10 % en termes de précision. Notre recherche contribue au développement open-source de modèles de langage inclusifs et plus alignés avec les contextes culturels et linguistiques dans lesquels ils sont déployés.
English
Code-switching is a common phenomenon of alternating between different
languages in the same utterance, thought, or conversation. We posit that humans
code-switch because they feel more comfortable talking about certain topics and
domains in one language than another. With the rise of knowledge-intensive
language models, we ask ourselves the next, natural question: Could models hold
more knowledge on some topics in some language X? More importantly, could we
improve reasoning by changing the language that reasoning is performed in? We
coin the term Language Specific Knowledge (LSK) to represent this phenomenon.
As ethnic cultures tend to develop alongside different languages, we employ
culture-specific datasets (that contain knowledge about cultural and social
behavioral norms). We find that language models can perform better when using
chain-of-thought reasoning in some languages other than English, sometimes even
better in low-resource languages. Paired with previous works showing that
semantic similarity does not equate to representational similarity, we
hypothesize that culturally specific texts occur more abundantly in
corresponding languages, enabling specific knowledge to occur only in specific
"expert" languages. Motivated by our initial results, we design a simple
methodology called LSKExtractor to benchmark the language-specific knowledge
present in a language model and, then, exploit it during inference. We show our
results on various models and datasets, showing an average relative improvement
of 10% in accuracy. Our research contributes to the open-source development of
language models that are inclusive and more aligned with the cultural and
linguistic contexts in which they are deployed.Summary
AI-Generated Summary