Evaluación de calidad basada en modelos para datos paralelos masivamente multilingües

Resumen

Los bitedos multilingües a gran escala suelen presentar dos problemas distintos: pares de oraciones no paralelas y traducciones de baja calidad. Descomponemos la evaluación basada en modelos para estos datos en dos componentes independientes: evaluación de paralelismo con incrustaciones multilingües y estimación de calidad sin referencia (QE). Para el paralelismo, evaluamos comparativamente cuatro modelos de incrustación en las tareas de recuperación de FLORES-200 y BOUQuET, que abarcan 6.654 direcciones fuente-destino en nuestro inventario de pares de idiomas objetivo. Para la QE, evaluamos nueve evaluadores sin referencia en traducciones profesionales de FLORES-200 a lo largo de 41.412 direcciones fuente-destino ordenadas. Los resultados muestran que ningún modelo es universalmente fiable en todas las direcciones de traducción. Los conjuntos ingenuos de QE diluyen las señales fuertes del modelo, mientras que la cobertura documentada del idioma de destino está fuertemente asociada con puntuaciones de QE más altas. En conjunto, estos hallazgos sugieren que la evaluación de datos paralelos multilingües se aborda mejor como un problema de enrutamiento y calibración que tiene en cuenta la dirección, donde no se espera que una única métrica universal sea suficiente para todos los idiomas.

English

Large-scale multilingual bitext often contains two distinct problems: non-parallel sentence pairs and low-quality translations. We decompose model-based assessment for such data into two independent components: parallelism assessment with multilingual embeddings and reference-free quality estimation (QE). For parallelism, we benchmark four embedding models on FLORES-200 and BOUQuET retrieval tasks, covering 6,654 source--target directions in our target language-pair inventory. For QE, we evaluate nine reference-free evaluators on professional FLORES-200 translations across 41,412 ordered source--target directions. Results show that no model is universally reliable across translation directions. Naive QE ensembles dilute strong model signals, while documented target-language coverage is strongly associated with higher QE scores. Overall, these findings suggest that multilingual parallel-data assessment is best approached as a direction-aware routing and calibration problem, where no single universal metric is expected to suffice across all languages.