Recuperación de Información con Cambio de Código: Puntos de Referencia, Análisis y Límites de los Recuperadores Actuales

Resumen

El cambio de código es un fenómeno lingüístico omnipresente en la comunicación global; sin embargo, los sistemas modernos de recuperación de información siguen estando predominantemente diseñados para, y evaluados en, contextos monolingües. Para salvar esta desconexión crítica, presentamos un estudio integral dedicado a la RI con cambio de código. Introducimos CSR-L (Code-Switching Retrieval benchmark-Lite), construyendo un conjunto de datos mediante anotación humana para capturar la auténtica naturalidad de las consultas en lenguaje mixto. Nuestra evaluación a través de paradigmas estadísticos, densos y de interacción tardía revela que el cambio de código actúa como un cuello de botella fundamental para el rendimiento, degradando la efectividad incluso de modelos multilingües robustos. Demostramos que este fallo proviene de una divergencia sustancial en el espacio de incrustación entre el texto puro y el texto con cambio de código. Para escalar esta investigación, proponemos CS-MTEB, un benchmark integral que cubre 11 tareas diversas, donde observamos disminuciones de rendimiento de hasta el 27%. Finalmente, mostramos que técnicas multilingües estándar, como la expansión del vocabulario, son insuficientes para resolver estos déficits por completo. Estos hallazgos subrayan la fragilidad de los sistemas actuales y establecen el cambio de código como una frontera crucial para la futura optimización de la RI.

English

Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.

Recuperación de Información con Cambio de Código: Puntos de Referencia, Análisis y Límites de los Recuperadores Actuales

Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Resumen

Support