Код-свитчинг в информационном поиске: эталоны, анализ и ограничения современных поисковых систем

Аннотация

Кодовое переключение является повсеместным лингвистическим феноменом в глобальной коммуникации, однако современные системы информационного поиска по-прежнему проектируются и оцениваются преимущественно в рамках монолингвальных контекстов. Чтобы преодолеть этот критический разрыв, мы представляем комплексное исследование, посвященное информационному поиску с кодовым переключением. Мы представляем CSR-L (Code-Switching Retrieval benchmark-Lite), создавая набор данных с помощью человеческой разметки для отражения аутентичной естественности смешанно-языковых запросов. Наша оценка, охватывающая статистические, плотные и парадигмы позднего взаимодействия, показывает, что кодовое переключение выступает в качестве фундаментального узкого места производительности, снижая эффективность даже robustных многоязычных моделей. Мы демонстрируем, что эта неудача проистекает из существенного расхождения в пространстве эмбеддингов между чистым и смешанно-языковым текстом. Масштабируя это исследование, мы предлагаем CS-MTEB, комплексный бенчмарк, охватывающий 11 разнообразных задач, где мы наблюдаем снижение производительности до 27%. Наконец, мы показываем, что стандартные многоязычные методики, такие как расширение словаря, недостаточны для полного устранения этих дефицитов. Эти результаты подчеркивают хрупкость современных систем и устанавливают кодовое переключение в качестве важнейшего рубежа для будущей оптимизации информационного поиска.

English

Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.

Код-свитчинг в информационном поиске: эталоны, анализ и ограничения современных поисковых систем

Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Аннотация

Support