Code-Switching in der Informationsrückgewinnung: Benchmarks, Analyse und Grenzen aktueller Retrieval-Systeme

Zusammenfassung

Code-Switching ist ein allgegenwärtiges linguistisches Phänomen in der globalen Kommunikation, doch moderne Informationsabfragesysteme sind nach wie vor überwiegend für monolinguale Kontexte konzipiert und evaluiert. Um diese kritische Diskrepanz zu überbrücken, präsentieren wir eine ganzheitliche Studie zur Code-Switching-IR. Wir führen CSR-L (Code-Switching Retrieval Benchmark-Lite) ein, das durch menschliche Annotation einen Datensatz erstellt, um die authentische Natürlichkeit gemischtsprachiger Anfragen zu erfassen. Unsere Evaluation über statistische, dichte und Late-Interaction-Paradigmen hinweg zeigt, dass Code-Switching einen grundlegenden Leistungsengpass darstellt, der die Effektivität selbst robuster multilingualer Modelle beeinträchtigt. Wir zeigen, dass dieses Versagen auf einer erheblichen Divergenz im Embedding-Raum zwischen reinsprachigem und Code-Switching-Text beruht. Um diese Untersuchung zu skalieren, schlagen wir CS-MTEB vor, einen umfassenden Benchmark, der 11 verschiedene Aufgaben abdeckt und bei dem wir Leistungseinbußen von bis zu 27 % beobachten. Abschließend zeigen wir, dass Standardtechniken für Multilingualität wie Vokabularerweiterung nicht ausreichen, um diese Defizite vollständig zu beheben. Diese Ergebnisse unterstreichen die Fragilität aktueller Systeme und etablieren Code-Switching als eine entscheidende Herausforderung für die zukünftige Optimierung von Informationsabfragen.

English

Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.

Code-Switching in der Informationsrückgewinnung: Benchmarks, Analyse und Grenzen aktueller Retrieval-Systeme

Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Zusammenfassung

Support