Conocimiento Específico del Idioma: ¿Los Modelos Saben Más en X que en Inglés?
Language Specific Knowledge: Do Models Know Better in X than in English?
May 21, 2025
Autores: Ishika Agarwal, Nimet Beyza Bozdag, Dilek Hakkani-Tür
cs.AI
Resumen
El cambio de código es un fenómeno común que consiste en alternar entre diferentes idiomas dentro de una misma expresión, pensamiento o conversación. Postulamos que los seres humanos cambian de código porque se sienten más cómodos hablando de ciertos temas y dominios en un idioma que en otro. Con el auge de los modelos de lenguaje intensivos en conocimiento, nos planteamos la siguiente pregunta natural: ¿Podrían los modelos contener más conocimiento sobre algunos temas en un idioma X? Más importante aún, ¿podríamos mejorar el razonamiento cambiando el idioma en el que se realiza? Acuñamos el término Conocimiento Específico del Idioma (LSK, por sus siglas en inglés) para representar este fenómeno. Dado que las culturas étnicas tienden a desarrollarse junto con diferentes idiomas, empleamos conjuntos de datos específicos de cada cultura (que contienen conocimiento sobre normas culturales y de comportamiento social). Descubrimos que los modelos de lenguaje pueden desempeñarse mejor cuando utilizan el razonamiento en cadena de pensamiento en algunos idiomas distintos al inglés, a veces incluso mejor en idiomas de bajos recursos. Junto con trabajos previos que muestran que la similitud semántica no equivale a la similitud representacional, planteamos la hipótesis de que los textos culturalmente específicos ocurren con mayor abundancia en los idiomas correspondientes, lo que permite que el conocimiento específico se manifieste solo en idiomas "expertos" particulares. Motivados por nuestros resultados iniciales, diseñamos una metodología simple llamada LSKExtractor para evaluar el conocimiento específico del idioma presente en un modelo de lenguaje y, luego, explotarlo durante la inferencia. Mostramos nuestros resultados en varios modelos y conjuntos de datos, obteniendo una mejora relativa promedio del 10% en precisión. Nuestra investigación contribuye al desarrollo de código abierto de modelos de lenguaje que son inclusivos y están más alineados con los contextos culturales y lingüísticos en los que se implementan.
English
Code-switching is a common phenomenon of alternating between different
languages in the same utterance, thought, or conversation. We posit that humans
code-switch because they feel more comfortable talking about certain topics and
domains in one language than another. With the rise of knowledge-intensive
language models, we ask ourselves the next, natural question: Could models hold
more knowledge on some topics in some language X? More importantly, could we
improve reasoning by changing the language that reasoning is performed in? We
coin the term Language Specific Knowledge (LSK) to represent this phenomenon.
As ethnic cultures tend to develop alongside different languages, we employ
culture-specific datasets (that contain knowledge about cultural and social
behavioral norms). We find that language models can perform better when using
chain-of-thought reasoning in some languages other than English, sometimes even
better in low-resource languages. Paired with previous works showing that
semantic similarity does not equate to representational similarity, we
hypothesize that culturally specific texts occur more abundantly in
corresponding languages, enabling specific knowledge to occur only in specific
"expert" languages. Motivated by our initial results, we design a simple
methodology called LSKExtractor to benchmark the language-specific knowledge
present in a language model and, then, exploit it during inference. We show our
results on various models and datasets, showing an average relative improvement
of 10% in accuracy. Our research contributes to the open-source development of
language models that are inclusive and more aligned with the cultural and
linguistic contexts in which they are deployed.Summary
AI-Generated Summary