MLAIRE: Многоязычный языково-осведомленный протокол оценки поиска информации

Аннотация

Многоязычный информационный поиск приобретает всё большее значение в реальных поисковых сценариях, где пользователи формируют запросы по корпусам со смешанными языками. Существующие методы оценки в основном поощряют семантическую релевантность, не зависящую от языка, рассматривая релевантные отрывки одинаково независимо от языка. Однако полезность поиска также зависит от языка найденных отрывков: пользователи могут предпочитать результаты, которые они могут прочитать и проверить на языке запроса, а несовпадение языков запроса и отрывка может усложнить последующую проверку обоснованности и ответов в системах дополненного поиска с генерацией. Для оценки этого аспекта, учитывающего язык, мы представляем MLAIRE — протокол многоязычной оценки информационного поиска с учётом языка, который разделяет кросс-языковой семантический поиск и предпочтение языка запроса. MLAIRE формирует контролируемые наборы с параллельными отрывками на разных языках, что позволяет измерять точность семантического поиска и предпочтение языка запроса при наличии эквивалентных переводов. Мы предлагаем метрики, учитывающие язык, включая Коэффициент предпочтения языка (LPR) и Lang-nDCG, а также 4-компонентное разложение, разделяющее ошибки семантического поиска и предпочтения языка запроса. Оценивая 31 плотный, разреженный и поздне-интерактивный поисковый механизм, мы показываем, что стандартные метрики скрывают различные модели поведения: семантически сильные поисковые системы могут возвращать правильное содержание не на языке запроса, в то время как системы с более сильным предпочтением языка запроса могут извлекать менее семантически релевантные отрывки.

English

Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.