MLAIRE: Protocolo de Avaliação de Recuperação de Informação Multilíngue Sensível ao Idioma

Resumo

A Recuperação Multilíngue de Informação é cada vez mais importante em cenários reais de busca, onde os usuários realizam consultas em corpora de idiomas mistos. As avaliações existentes recompensam principalmente a relevância semântica independente de idioma, tratando passagens relevantes igualmente independentemente do idioma. No entanto, a utilidade da recuperação também depende do idioma das passagens recuperadas: os usuários podem preferir resultados que possam ler e verificar no idioma da consulta, e a incompatibilidade de idioma entre consulta e passagem pode complicar a fundamentação downstream e a verificação de respostas em sistemas de Geração Aumentada por Recuperação. Para avaliar essa dimensão consciente de idioma, apresentamos o MLAIRE, um protocolo de Avaliação de Recuperação de Informação Multilíngue Consciente de Idioma que separa a recuperação semântica multilíngue da preferência pelo idioma da consulta. O MLAIRE constrói conjuntos controlados com passagens paralelas em vários idiomas, permitindo medir a precisão da recuperação semântica e a preferência pelo idioma da consulta quando traduções equivalentes estão disponíveis. Propomos métricas conscientes de idioma, incluindo a Taxa de Preferência de Idioma (LPR) e o Lang-nDCG, juntamente com uma decomposição em quatro vias que separa falhas de preferência semântica e de idioma da consulta. Avaliando 31 recuperadores densos, esparsos e de interação tardia, mostramos que métricas padrão obscurecem comportamentos distintos: recuperadores semanticamente fortes podem retornar conteúdo correto em um idioma diferente do da consulta, enquanto recuperadores com preferência mais forte pelo idioma da consulta podem recuperar passagens semanticamente menos relevantes.

English

Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.