Recherche d'Information en Changement de Code : Référentiels, Analyse et Limites des Systèmes de Recherche Actuels
Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers
April 19, 2026
Auteurs: Qingcheng Zeng, Yuheng Lu, Zeqi Zhou, Heli Qi, Puxuan Yu, Fuheng Zhao, Hitomi Yanaka, Weihao Xuan, Naoto Yokoya
cs.AI
Résumé
L'alternance codique est un phénomène linguistique omniprésent dans la communication mondiale, pourtant les systèmes modernes de recherche d'information restent majoritairement conçus et évalués dans des contextes monolingues. Pour combler cette divergence critique, nous présentons une étude holistique dédiée à la RI en alternance codique. Nous introduisons CSR-L (Code-Switching Retrieval benchmark-Lite), en construisant un jeu de données via annotation humaine pour capturer l'authenticité naturelle des requêtes en langue mixte. Notre évaluation à travers les paradigmes statistiques, denses et à interaction tardive révèle que l'alternance codique agit comme un goulot d'étranglement fondamental pour la performance, dégradant l'efficacité même des modèles multilingues robustes. Nous démontrons que cet échec découle d'une divergence substantielle dans l'espace d'embedding entre le texte pur et le texte en alternance codique. Pour étendre cette investigation, nous proposons CS-MTEB, un benchmark complet couvrant 11 tâches diverses, où nous observons des baisses de performance allant jusqu'à 27 %. Enfin, nous montrons que les techniques multilingues standard comme l'expansion du vocabulaire sont insuffisantes pour résoudre complètement ces déficits. Ces résultats soulignent la fragilité des systèmes actuels et établissent l'alternance codique comme une frontière cruciale pour l'optimisation future de la RI.
English
Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.