ChatPaper.aiChatPaper

MLAIRE: 다국어 언어 인식 정보 검색 평가 프로토콜

MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal

May 8, 2026
저자: Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim
cs.AI

초록

다국어 정보 검색은 사용자가 혼합 언어 코퍼스에 대해 질의를 수행하는 실제 검색 환경에서 점점 더 중요해지고 있다. 기존 평가는 주로 언어 무관 의미적 관련성을 보상하며, 언어에 관계없이 관련 구절을 동등하게 취급한다. 그러나 검색의 유용성은 검색된 구절의 언어에도 의존한다. 사용자는 질의어로 읽고 확인할 수 있는 결과를 선호할 수 있으며, 질의-구절 언어 불일치는 검색 증강 생성 시스템에서 다운스트림 근거 확인과 답변 검증을 복잡하게 만들 수 있다. 이러한 언어 인식 차원을 평가하기 위해, 우리는 MLAIRE(다국어 언어 인식 정보 검색 평가 프로토콜)를 도입한다. 이 프로토콜은 교차 언어 의미 검색과 질의어 언어 선호도를 분리한다. MLAIRE는 여러 언어에 걸쳐 병렬 구절이 포함된 통제된 풀을 구축하여, 동등한 번역이 가능할 때 의미 검색 정확도와 질의어 언어 선호도를 측정할 수 있게 한다. 우리는 언어 선호율(LPR)과 Lang-nDCG를 포함한 언어 인식 평가지표와 함께 의미 및 질의어 언어 선호도 실패를 분리하는 4방향 분해를 제안한다. 31개의 밀집, 희소 및 후기 상호작용 검색기를 평가한 결과, 표준 지표는 뚜렷한 행동을 모호하게 한다는 것을 보여준다. 의미적으로 강력한 검색기는 질의어가 아닌 언어로 올바른 내용을 반환할 수 있는 반면, 질의어 언어 선호도가 더 강한 검색기는 의미적으로 덜 관련된 구절을 검색할 수 있다.
English
Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.