Recuperação de Informação com Alternância de Código: Benchmarks, Análise e os Limites dos Recuperadores Atuais

Resumo

A alternância de códigos (code-switching) é um fenómeno linguístico omnipresente na comunicação global, contudo, os sistemas modernos de recuperação de informação continuam maioritariamente concebidos para, e avaliados em, contextos monolingues. Para colmatar esta desconexão crítica, apresentamos um estudo holístico dedicado à RI com alternância de códigos. Introduzimos o CSR-L (Code-Switching Retrieval benchmark-Lite), construindo um conjunto de dados através de anotação humana para capturar a autêntica naturalidade de consultas em linguagem mista. A nossa avaliação através de paradigmas estatísticos, densos e de interação tardia revela que a alternância de códigos atua como um estrangulamento fundamental de desempenho, degradando a eficácia mesmo de modelos multilingues robustos. Demonstramos que esta falha deriva de uma divergência substancial no espaço de incorporação (embedding) entre texto puro e texto com alternância de códigos. Dimensionando esta investigação, propomos o CS-MTEB, um benchmark abrangente que cobre 11 tarefas diversas, onde observamos quedas de desempenho de até 27%. Finalmente, mostramos que técnicas multilingues padrão, como a expansão de vocabulário, são insuficientes para resolver estes défices completamente. Estas descobertas sublinham a fragilidade dos sistemas atuais e estabelecem a alternância de códigos como uma fronteira crucial para a futura otimização da RI.

English

Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.

Recuperação de Informação com Alternância de Código: Benchmarks, Análise e os Limites dos Recuperadores Atuais

Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Resumo

Support