MLAIRE : Protocole d'évaluation de la recherche d'information multilingue sensible à la langue

Résumé

La recherche d'information multilingue devient de plus en plus importante dans les contextes de recherche réels, où les utilisateurs formulent des requêtes sur des corpus en langues mixtes. Les évaluations existantes récompensent principalement la pertinence sémantique indépendante de la langue, traitant les passages pertinents de manière égale quelle que soit leur langue. Or, l'utilité de la recherche dépend également de la langue des passages retrouvés : les utilisateurs peuvent préférer des résultats qu'ils peuvent lire et vérifier dans la langue de la requête, et le décalage linguistique entre la requête et le passage peut compliquer l'ancrage en aval et la vérification des réponses dans les systèmes de génération augmentée par recherche (Retrieval-Augmented Generation). Pour évaluer cette dimension sensible à la langue, nous présentons MLAIRE, un protocole d'évaluation de la recherche d'information multilingue consciente de la langue (Multilingual Language-Aware Information Retrieval Evaluation protocol) qui distingue la recherche sémantique interlingue de la préférence pour la langue de la requête. MLAIRE construit des pools contrôlés avec des passages parallèles dans plusieurs langues, permettant de mesurer la précision de la recherche sémantique et la préférence pour la langue de la requête lorsque des traductions équivalentes sont disponibles. Nous proposons des métriques sensibles à la langue, notamment le Taux de Préférence de Langue (Language Preference Rate, LPR) et le Lang-nDCG, ainsi qu'une décomposition en quatre facteurs séparant les échecs sémantiques et les échecs de préférence pour la langue de la requête. En évaluant 31 réplicateurs denses, creux et à interaction tardive, nous montrons que les métriques standard masquent des comportements distincts : des réplicateurs sémantiquement forts peuvent retourner un contenu correct dans une langue autre que celle de la requête, tandis que des réplicateurs avec une plus forte préférence pour la langue de la requête peuvent retrouver des passages moins pertinents sémantiquement.

English

Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.