ChatPaper.aiChatPaper

コードスイッチング情報検索:ベンチマーク、分析、および現在の検索システムの限界

Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

April 19, 2026
著者: Qingcheng Zeng, Yuheng Lu, Zeqi Zhou, Heli Qi, Puxuan Yu, Fuheng Zhao, Hitomi Yanaka, Weihao Xuan, Naoto Yokoya
cs.AI

要旨

コードスイッチングはグローバルコミュニケーションにおいて遍在する言語現象であるが、現代の情報検索システムは未だに単一言語コンテキスト向けに設計され、評価されることが主流である。この重大な乖離を埋めるため、我々はコードスイッチングIRに焦点を当てた総合的研究を提案する。混合言語クエリの真の自然さを捉えるため、人手注釈によるデータセットを構築し、CSR-L(Code-Switching Retrieval benchmark-Lite)を導入する。統計的、密、後期相互作用モデルにわたる評価を通じて、コードスイッチングが基本的な性能ボトルネックとして作用し、堅牢な多言語モデルであってもその有効性を低下させることを明らかにする。この失敗は、単一言語テキストとコードスイッチングテキストの間の埋め込み空間における大幅な乖離に起因することを示す。調査を拡大し、11の多様なタスクを網羅する総合的なベンチマークCS-MTEBを提案し、最大27%の性能低下を観測した。最後に、語彙拡張のような標準的な多言語技術では、これらの欠陥を完全に解決するには不十分であることを示す。これらの知見は、現行システムの脆弱性を浮き彫りにし、コードスイッチングが将来のIR最適化における重要なフロンティアであることを立証する。
English
Code-switching is a pervasive linguistic phenomenon in global communication, yet modern information retrieval systems remain predominantly designed for, and evaluated within, monolingual contexts. To bridge this critical disconnect, we present a holistic study dedicated to code-switching IR. We introduce CSR-L (Code-Switching Retrieval benchmark-Lite), constructing a dataset via human annotation to capture the authentic naturalness of mixed-language queries. Our evaluation across statistical, dense, and late-interaction paradigms reveals that code-switching acts as a fundamental performance bottleneck, degrading the effectiveness of even robust multilingual models. We demonstrate that this failure stems from substantial divergence in the embedding space between pure and code-switched text. Scaling this investigation, we propose CS-MTEB, a comprehensive benchmark covering 11 diverse tasks, where we observe performance declines of up to 27%. Finally, we show that standard multilingual techniques like vocabulary expansion are insufficient to resolve these deficits completely. These findings underscore the fragility of current systems and establish code-switching as a crucial frontier for future IR optimization.
PDF91April 23, 2026