MLAIRE:多言語言語認識型情報検索評価プロトコル
MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal
May 8, 2026
著者: Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim
cs.AI
要旨
多言語情報検索は、ユーザーが複数言語混在コーパスに対してクエリを発行する実世界の検索環境においてますます重要性を増している。既存の評価は主に言語非依存の意味的関連性を報奨し、言語に関わらず関連パッセージを同等に扱っている。しかし、検索の有用性は取得されたパッセージの言語にも依存する。ユーザーはクエリ言語で読んで検証できる結果を好む可能性があり、クエリとパッセージの言語不一致は、検索拡張生成(RAG)システムにおける下流のグラウンディングや回答検証を複雑化しうる。この言語認識の次元を評価するために、我々はMLAIREを導入する。これは、言語横断的な意味検索とクエリ言語選好を分離する多言語言語認識情報検索評価プロトコルである。MLAIREは、言語間でパラレルなパッセージを含む制御されたプールを構築し、同等の翻訳が利用可能な場合に意味検索精度とクエリ言語選好の測定を可能にする。我々は、言語選好率(LPR)やLang-nDCGを含む言語認識メトリクスを、意味的およびクエリ言語選好の失敗を分離する4方向分解とともに提案する。31の密、疎、および後期相互作用型検索器を評価した結果、標準メトリクスは異なる振る舞いを隠蔽することを示す。すなわち、意味的に強い検索器は非クエリ言語で正しい内容を返す可能性がある一方、クエリ言語選好が強い検索器は意味的関連性の低いパッセージを取得する可能性がある。
English
Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.