MLAIRE: Mehrsprachiges, sprachbewusstes Evaluationsprotokoll für den Information Retrieval

Zusammenfassung

Mehrsprachige Informationssuche wird in realen Suchumgebungen zunehmend wichtiger, in denen Nutzer Anfragen über gemischtsprachige Korpora stellen. Bestehende Evaluierungen belohnen hauptsächlich sprachunabhängige semantische Relevanz und behandeln relevante Textpassagen unabhängig von ihrer Sprache gleich. Allerdings hängt der Nutzen des Retrievals auch von der Sprache der abgerufenen Passagen ab: Nutzer bevorzugen möglicherweise Ergebnisse, die sie in der Abfragesprache lesen und überprüfen können, und eine Sprachdiskrepanz zwischen Anfrage und Passage kann die nachgelagerte Verankerung und Antwortverifikation in Retrieval-Augmented-Generation-Systemen erschweren. Um diese sprachbewusste Dimension zu evaluieren, führen wir MLAIRE ein, ein Protokoll zur mehrsprachigen sprachbewussten Evaluierung der Informationssuche, das das cross-linguale semantische Retrieval von der Präferenz für die Abfragesprache entkoppelt. MLAIRE erstellt kontrollierte Pools mit parallelen Textpassagen über verschiedene Sprachen hinweg, was die Messung der semantischen Retrieval-Genauigkeit und der Präferenz für die Abfragesprache ermöglicht, wenn äquivalente Übersetzungen verfügbar sind. Wir schlagen sprachbewusste Metriken vor, darunter die Sprachpräferenzrate (Language Preference Rate, LPR) und Lang-nDCG, zusammen mit einer viergliedrigen Zerlegung, die semantische Fehler und Fehler der Präferenz für die Abfragesprache trennt. Durch die Evaluierung von 31 dichten, spärlichen und Late-Interaction-Retrievern zeigen wir, dass Standardmetriken unterschiedliche Verhaltensweisen verschleiern: Semantisch starke Retriever können korrekte Inhalte in einer Nicht-Abfragesprache zurückgeben, während Retriever mit stärkerer Präferenz für die Abfragesprache möglicherweise semantisch weniger relevante Passagen abrufen.

English

Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.