Conhecimento Específico de Idioma: Os Modelos Sabem Mais em X do que em Inglês?
Language Specific Knowledge: Do Models Know Better in X than in English?
May 21, 2025
Autores: Ishika Agarwal, Nimet Beyza Bozdag, Dilek Hakkani-Tür
cs.AI
Resumo
A alternância de código (code-switching) é um fenômeno comum de alternância entre diferentes idiomas na mesma frase, pensamento ou conversa. Postulamos que os seres humanos alternam códigos porque se sentem mais confortáveis discutindo certos tópicos e domínios em um idioma do que em outro. Com o surgimento de modelos de linguagem intensivos em conhecimento, nos perguntamos a próxima questão natural: os modelos poderiam reter mais conhecimento sobre alguns tópicos em um determinado idioma X? Mais importante ainda, poderíamos melhorar o raciocínio mudando o idioma em que ele é realizado? Cunhamos o termo Conhecimento Específico de Idioma (Language Specific Knowledge - LSK) para representar esse fenômeno. Como as culturas étnicas tendem a se desenvolver junto a diferentes idiomas, empregamos conjuntos de dados específicos de cultura (que contêm conhecimento sobre normas culturais e comportamentais sociais). Descobrimos que os modelos de linguagem podem ter um desempenho melhor ao usar o raciocínio em cadeia de pensamento (chain-of-thought) em alguns idiomas além do inglês, às vezes até mesmo em idiomas de baixos recursos. Aliado a trabalhos anteriores que mostram que a similaridade semântica não equivale à similaridade representacional, hipotetizamos que textos culturalmente específicos ocorrem mais abundantemente em idiomas correspondentes, permitindo que conhecimentos específicos ocorram apenas em idiomas "especialistas" específicos. Motivados por nossos resultados iniciais, projetamos uma metodologia simples chamada LSKExtractor para avaliar o conhecimento específico de idioma presente em um modelo de linguagem e, em seguida, explorá-lo durante a inferência. Mostramos nossos resultados em vários modelos e conjuntos de dados, demonstrando uma melhoria relativa média de 10% na precisão. Nossa pesquisa contribui para o desenvolvimento de código aberto de modelos de linguagem que são inclusivos e mais alinhados com os contextos culturais e linguísticos em que são implantados.
English
Code-switching is a common phenomenon of alternating between different
languages in the same utterance, thought, or conversation. We posit that humans
code-switch because they feel more comfortable talking about certain topics and
domains in one language than another. With the rise of knowledge-intensive
language models, we ask ourselves the next, natural question: Could models hold
more knowledge on some topics in some language X? More importantly, could we
improve reasoning by changing the language that reasoning is performed in? We
coin the term Language Specific Knowledge (LSK) to represent this phenomenon.
As ethnic cultures tend to develop alongside different languages, we employ
culture-specific datasets (that contain knowledge about cultural and social
behavioral norms). We find that language models can perform better when using
chain-of-thought reasoning in some languages other than English, sometimes even
better in low-resource languages. Paired with previous works showing that
semantic similarity does not equate to representational similarity, we
hypothesize that culturally specific texts occur more abundantly in
corresponding languages, enabling specific knowledge to occur only in specific
"expert" languages. Motivated by our initial results, we design a simple
methodology called LSKExtractor to benchmark the language-specific knowledge
present in a language model and, then, exploit it during inference. We show our
results on various models and datasets, showing an average relative improvement
of 10% in accuracy. Our research contributes to the open-source development of
language models that are inclusive and more aligned with the cultural and
linguistic contexts in which they are deployed.