Recupero di Informazioni con Code-Switching: Benchmark, Analisi e Limiti degli Attuali Sistemi di Retrieval

Abstract

Il code-switching è un fenomeno linguistico pervasivo nella comunicazione globale, eppure i moderni sistemi di information retrieval rimangono prevalentemente progettati e valutati in contesti monolingui. Per colmare questa critica disconnessione, presentiamo uno studio olistico dedicato all'IR con code-switching. Introduciamo CSR-L (Code-Switching Retrieval benchmark-Lite), costruendo un dataset tramite annotazione umana per catturare l'autentica naturalezza di query in linguaggio misto. La nostra valutazione attraverso paradigmi statistici, densi e di late-interaction rivela che il code-switching agisce come un collo di bottiglia fondamentale per le prestazioni, degradando l'efficacia persino di robusti modelli multilingue. Dimostriamo che questo fallimento deriva da una sostanziale divergenza nello spazio d'embedding tra testo puro e testo con code-switching. Scalando questa investigazione, proponiamo CS-MTEB, un benchmark completo che copre 11 task diversificati, dove osserviamo cali prestazionali fino al 27%. Infine, mostriamo che tecniche multilingue standard come l'espansione del vocabolario sono insufficienti per risolvere completamente questi deficit. Questi risultati sottolineano la fragilità dei sistemi attuali e stabiliscono il code-switching come una frontiera cruciale per la futura ottimizzazione dell'IR.

English

Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.

Recupero di Informazioni con Code-Switching: Benchmark, Analisi e Limiti degli Attuali Sistemi di Retrieval

Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Abstract

Support