MLAIRE: Protocolo de Evaluación de Recuperación de Información Multilingüe y Consciente del Idioma

Resumen

La Recuperación de Información Multilingüe es cada vez más importante en entornos de búsqueda reales, donde los usuarios formulan consultas sobre corpus de idiomas mixtos. Las evaluaciones existentes principalmente recompensan la relevancia semántica independiente del idioma, tratando los pasajes relevantes por igual independientemente del idioma. Sin embargo, la utilidad de la recuperación también depende del idioma de los pasajes recuperados: los usuarios pueden preferir resultados que puedan leer y verificar en el idioma de la consulta, y la falta de correspondencia de idioma entre consulta y pasaje puede complicar la fundamentación descendente y la verificación de respuestas en sistemas de Generación Aumentada por Recuperación. Para evaluar esta dimensión consciente del idioma, presentamos MLAIRE, un protocolo de Evaluación de Recuperación de Información Multilingüe Consciente del Idioma que desglosa la recuperación semántica translingüística de la preferencia por el idioma de la consulta. MLAIRE construye grupos controlados con pasajes paralelos en varios idiomas, lo que permite medir la precisión de la recuperación semántica y la preferencia por el idioma de la consulta cuando hay traducciones equivalentes disponibles. Proponemos métricas conscientes del idioma, incluyendo la Tasa de Preferencia de Idioma (LPR) y Lang-nDCG, junto con una descomposición en cuatro vías que separa los fallos de preferencia semántica y de idioma de la consulta. Al evaluar 31 recuperadores densos, dispersos y de interacción tardía, mostramos que las métricas estándar ocultan comportamientos distintos: los recuperadores semánticamente fuertes pueden devolver contenido correcto en un idioma diferente al de la consulta, mientras que los recuperadores con una preferencia más fuerte por el idioma de la consulta pueden recuperar pasajes semánticamente menos relevantes.

English

Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.