Perdus dans le mélange : Évaluation de la compréhension des LLM pour les textes en alternance codique
Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text
June 16, 2025
Auteurs: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang
cs.AI
Résumé
L'alternance codique (Code-Switching, CSW) désigne l'acte de passer d'une langue à une autre au sein d'un même discours. Ce phénomène est répandu dans les communautés multilingues et devient de plus en plus courant dans les contenus en ligne, où les utilisateurs mélangent naturellement les langues dans leurs communications quotidiennes. Par conséquent, les modèles de langage de grande taille (LLMs), désormais centraux dans le traitement et la génération de contenu, sont fréquemment exposés à des entrées en alternance codique. Étant donné leur utilisation généralisée, il est crucial de comprendre comment les LLMs traitent et raisonnent sur ces textes multilingues. Cet article présente une évaluation systématique de la compréhension des LLMs face à l'alternance codique en générant des variantes CSW de benchmarks établis en raisonnement et compréhension. Bien qu'une dégradation soit évidente lorsque des tokens étrangers perturbent le texte en anglais—même sous contraintes linguistiques—l'intégration de l'anglais dans d'autres langues améliore souvent la compréhension. Si l'utilisation de prompts donne des résultats mitigés, le fine-tuning offre une voie plus stable pour atténuer la dégradation.
English
Code-switching (CSW) is the act of alternating between two or more languages
within a single discourse. This phenomenon is widespread in multilingual
communities, and increasingly prevalent in online content, where users
naturally mix languages in everyday communication. As a result, Large Language
Models (LLMs), now central to content processing and generation, are frequently
exposed to code-switched inputs. Given their widespread use, it is crucial to
understand how LLMs process and reason about such mixed-language text. This
paper presents a systematic evaluation of LLM comprehension under
code-switching by generating CSW variants of established reasoning and
comprehension benchmarks. While degradation is evident when foreign tokens
disrupt English textx2013even under linguistic
constraintsx2013embedding English into other languages often
improves comprehension. Though prompting yields mixed results, fine-tuning
offers a more stable path to degradation mitigation.