ChatPaper.aiChatPaper

Au-delà des hypothèses monolingues : Une étude sur le traitement du langage naturel en alternance codique à l'ère des grands modèles de langage

Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

October 8, 2025
papers.authors: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh
cs.AI

papers.abstract

L'alternance codique (Code-Switching, CSW), qui consiste à alterner les langues et les scripts au sein d'un même énoncé, reste un défi fondamental pour le traitement automatique des langues (NLP) multilingue, même face aux avancées rapides des grands modèles de langage (LLMs). La plupart des LLMs peinent encore à gérer les entrées en langues mixtes, les ensembles de données limités pour l'alternance codique, et les biais d'évaluation, ce qui entrave leur déploiement dans les sociétés multilingues. Cette étude propose la première analyse complète des recherches sur les LLMs prenant en compte l'alternance codique, passant en revue des études uniques couvrant cinq domaines de recherche, 12 tâches de NLP, plus de 30 ensembles de données et plus de 80 langues. Nous classons les avancées récentes selon l'architecture, la stratégie d'entraînement et la méthodologie d'évaluation, en soulignant comment les LLMs ont redéfini la modélisation de l'alternance codique et quels défis persistent. L'article conclut par une feuille de route mettant l'accent sur la nécessité de créer des ensembles de données inclusifs, des évaluations équitables et des modèles ancrés dans la linguistique pour parvenir à une intelligence véritablement multilingue. Une collection organisée de toutes les ressources est maintenue à l'adresse suivante : https://github.com/lingo-iitgn/awesome-code-mixing/.
English
Code-switching (CSW), the alternation of languages and scripts within a single utterance, remains a fundamental challenge for multiling ual NLP, even amidst the rapid advances of large language models (LLMs). Most LLMs still struggle with mixed-language inputs, limited CSW datasets, and evaluation biases, hindering deployment in multilingual societies. This survey provides the first comprehensive analysis of CSW-aware LLM research, reviewing unique_references studies spanning five research areas, 12 NLP tasks, 30+ datasets, and 80+ languages. We classify recent advances by architecture, training strategy, and evaluation methodology, outlining how LLMs have reshaped CSW modeling and what challenges persist. The paper concludes with a roadmap emphasizing the need for inclusive datasets, fair evaluation, and linguistically grounded models to achieve truly multilingual intelligence. A curated collection of all resources is maintained at https://github.com/lingo-iitgn/awesome-code-mixing/.
PDF22October 9, 2025