MLAIRE: Meertalig taalbewust informatieherwinnings-evaluatieprotocol

Samenvatting

Meertalige informatieopvraging wordt steeds belangrijker in realistische zoekomgevingen, waar gebruikers queries uitvoeren over gemengdtalige corpora. Bestaande evaluaties belonen voornamelijk taalonafhankelijke semantische relevantie en behandelen relevante passages gelijkwaardig ongeacht de taal. Toch hangt het nut van een opvraging ook af van de taal van de opgehaalde passages: gebruikers geven mogelijk de voorkeur aan resultaten die ze kunnen lezen en verifiëren in de querytaal, en een mismatch in taal tussen query en passage kan de downstream-onderbouwing en antwoordverificatie in Retrieval-Augmented Generation-systemen compliceren. Om deze taalbewuste dimensie te evalueren introduceren wij MLAIRE, een Multilingual Language-Aware Information Retrieval Evaluation-protocol dat cross-linguaal semantisch terugvinden ontkoppelt van de voorkeur voor de querytaal. MLAIRE construeert gecontroleerde pools met parallelle passages in verschillende talen, waardoor zowel de semantische opvraagnauwkeurigheid als de voorkeur voor de querytaal gemeten kunnen worden wanneer gelijkwaardige vertalingen beschikbaar zijn. Wij stellen taalbewuste metrieken voor, waaronder het Taalvoorkeurspercentage (TVP) en Lang-nDCG, samen met een 4-weg decompositie die semantische fouten en fouten in de querytaalvoorkeur scheidt. Door 31 dichte, schaarse en late-interactie retrievers te evalueren tonen wij aan dat standaardmetrieken verschillende gedragingen verbergen: semantisch sterke retrievers kunnen correcte inhoud ophalen in een niet-querytaal, terwijl retrievers met een sterkere voorkeur voor de querytaal mogelijk minder semantisch relevante passages ophalen.

English

Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.