Recupero di Informazioni con Code-Switching: Benchmark, Analisi e Limiti degli Attuali Sistemi di Retrieval
Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers
April 19, 2026
Autori: Qingcheng Zeng, Yuheng Lu, Zeqi Zhou, Heli Qi, Puxuan Yu, Fuheng Zhao, Hitomi Yanaka, Weihao Xuan, Naoto Yokoya
cs.AI
Abstract
Il code-switching è un fenomeno linguistico pervasivo nella comunicazione globale, eppure i moderni sistemi di information retrieval rimangono prevalentemente progettati e valutati in contesti monolingui. Per colmare questa critica disconnessione, presentiamo uno studio olistico dedicato all'IR con code-switching. Introduciamo CSR-L (Code-Switching Retrieval benchmark-Lite), costruendo un dataset tramite annotazione umana per catturare l'autentica naturalezza di query in linguaggio misto. La nostra valutazione attraverso paradigmi statistici, densi e di late-interaction rivela che il code-switching agisce come un collo di bottiglia fondamentale per le prestazioni, degradando l'efficacia persino di robusti modelli multilingue. Dimostriamo che questo fallimento deriva da una sostanziale divergenza nello spazio d'embedding tra testo puro e testo con code-switching. Scalando questa investigazione, proponiamo CS-MTEB, un benchmark completo che copre 11 task diversificati, dove osserviamo cali prestazionali fino al 27%. Infine, mostriamo che tecniche multilingue standard come l'espansione del vocabolario sono insufficienti per risolvere completamente questi deficit. Questi risultati sottolineano la fragilità dei sistemi attuali e stabiliscono il code-switching come una frontiera cruciale per la futura ottimizzazione dell'IR.
English
Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.