ChatPaper.aiChatPaper

Taalspecifieke Kennis: Presteren Modellen Beter in X dan in het Engels?

Language Specific Knowledge: Do Models Know Better in X than in English?

May 21, 2025
Auteurs: Ishika Agarwal, Nimet Beyza Bozdag, Dilek Hakkani-Tür
cs.AI

Samenvatting

Codewisseling is een veelvoorkomend fenomeen waarbij wordt gewisseld tussen verschillende talen binnen dezelfde uiting, gedachte of conversatie. Wij stellen dat mensen codewisselen omdat ze zich comfortabeler voelen om over bepaalde onderwerpen en domeinen in de ene taal te praten dan in de andere. Met de opkomst van kennisintensieve taalmodellen stellen we ons de volgende, natuurlijke vraag: Kunnen modellen meer kennis hebben over sommige onderwerpen in een bepaalde taal X? En nog belangrijker: Kunnen we het redeneren verbeteren door de taal waarin wordt geredeneerd te veranderen? Wij introduceren de term Language Specific Knowledge (LSK) om dit fenomeen te representeren. Omdat etnische culturen zich vaak ontwikkelen naast verschillende talen, maken we gebruik van cultuurspecifieke datasets (die kennis bevatten over culturele en sociale gedragsnormen). We ontdekken dat taalmodellen beter kunnen presteren wanneer ze gebruikmaken van chain-of-thought redenering in sommige andere talen dan Engels, soms zelfs beter in talen met weinig bronnen. In combinatie met eerder onderzoek dat aantoont dat semantische gelijkenis niet gelijkstaat aan representatieve gelijkenis, stellen we de hypothese dat cultuurspecifieke teksten vaker voorkomen in de corresponderende talen, waardoor specifieke kennis alleen aanwezig is in specifieke "expert"-talen. Gemotiveerd door onze initiële resultaten, ontwerpen we een eenvoudige methodologie genaamd LSKExtractor om de taal-specifieke kennis in een taalmodel te benchmarken en deze vervolgens te benutten tijdens inferentie. We presenteren onze resultaten op verschillende modellen en datasets, waarbij we een gemiddelde relatieve verbetering van 10% in nauwkeurigheid laten zien. Ons onderzoek draagt bij aan de open-source ontwikkeling van taalmodellen die inclusief zijn en beter aansluiten bij de culturele en linguïstische contexten waarin ze worden ingezet.
English
Code-switching is a common phenomenon of alternating between different languages in the same utterance, thought, or conversation. We posit that humans code-switch because they feel more comfortable talking about certain topics and domains in one language than another. With the rise of knowledge-intensive language models, we ask ourselves the next, natural question: Could models hold more knowledge on some topics in some language X? More importantly, could we improve reasoning by changing the language that reasoning is performed in? We coin the term Language Specific Knowledge (LSK) to represent this phenomenon. As ethnic cultures tend to develop alongside different languages, we employ culture-specific datasets (that contain knowledge about cultural and social behavioral norms). We find that language models can perform better when using chain-of-thought reasoning in some languages other than English, sometimes even better in low-resource languages. Paired with previous works showing that semantic similarity does not equate to representational similarity, we hypothesize that culturally specific texts occur more abundantly in corresponding languages, enabling specific knowledge to occur only in specific "expert" languages. Motivated by our initial results, we design a simple methodology called LSKExtractor to benchmark the language-specific knowledge present in a language model and, then, exploit it during inference. We show our results on various models and datasets, showing an average relative improvement of 10% in accuracy. Our research contributes to the open-source development of language models that are inclusive and more aligned with the cultural and linguistic contexts in which they are deployed.
PDF12May 22, 2025