코드 전환 정보 검색: 벤치마크, 분석, 그리고 현행 검색 시스템의 한계
Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers
April 19, 2026
저자: Qingcheng Zeng, Yuheng Lu, Zeqi Zhou, Heli Qi, Puxuan Yu, Fuheng Zhao, Hitomi Yanaka, Weihao Xuan, Naoto Yokoya
cs.AI
초록
코드 스위칭은 글로벌 커뮤니케이션에서 보편적인 언어 현상이지만, 현대 정보 검색 시스템은 여전히 단일 언어 환경을 위해 설계되고 평가되는 경우가 대부분입니다. 이러한 중요한 괴리를 해소하기 위해, 본 연구는 코드 스위칭 정보 검색에 대한 종합적인 연구를 제시합니다. 우리는 혼합 언어 질의의 진정한 자연스러움을 포착하기 위해 인간의 주석을 통해 데이터셋을 구축한 CSR-L(Code-Switching Retrieval benchmark-Lite)을 소개합니다. 통계적, 조밀, 후기 상호작용 패러다임에 걸친 평가를 통해 코드 스위칭이 강력한 다국어 모델의 성능마저 저하시키는 근본적인 성능 병목 현상으로 작용함을 밝혔습니다. 우리는 이러한 실패가 순수 텍스트와 코드 스위칭 텍스트 간 임베딩 공간에서의 상당한 차이에서 비롯됨을 입증합니다. 이러한 조사를 확장하여 11가지 다양한 작업을 포괄하는 종합 벤치마크인 CS-MTEB를 제안하며, 여기서 최대 27%까지의 성능 저하를 관찰했습니다. 마지막으로, 어휘 확장과 같은 표준 다국어 기술만으로는 이러한 결함을 완전히 해결하기에 부족함을 보여줍니다. 이러한 발견들은 현행 시스템의 취약성을 강조하고 코드 스위칭을 향후 정보 검색 최적화의 중요한 과제로 확립합니다.
English
Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.