Évaluation de la qualité basée sur un modèle pour des données parallèles massivement multilingues

Résumé

Les textes bilingues multilingues à grande échelle présentent souvent deux problèmes distincts : des paires de phrases non parallèles et des traductions de faible qualité. Nous décomposons l’évaluation fondée sur des modèles pour ces données en deux composantes indépendantes : l’évaluation du parallélisme à l’aide de plongements multilingues et l’estimation de la qualité sans référence (QE). Pour le parallélisme, nous évaluons quatre modèles de plongement sur des tâches de recherche sur FLORES-200 et BOUQuET, couvrant 6 654 directions source–cible dans notre inventaire de paires de langues cibles. Pour la QE, nous évaluons neuf estimateurs sans référence sur des traductions professionnelles de FLORES-200 à travers 41 412 directions source–cible ordonnées. Les résultats montrent qu’aucun modèle n’est universellement fiable pour toutes les directions de traduction. Les ensembles naïfs de QE diluent les signaux forts des modèles, tandis que la couverture documentée de la langue cible est fortement associée à des scores de QE plus élevés. Dans l’ensemble, ces résultats suggèrent que l’évaluation des données parallèles multilingues est mieux abordée comme un problème d’orientation et de calibrage tenant compte de la direction, où l’on ne peut s’attendre à ce qu’une seule métrique universelle suffise pour toutes les langues.

English

Large-scale multilingual bitext often contains two distinct problems: non-parallel sentence pairs and low-quality translations. We decompose model-based assessment for such data into two independent components: parallelism assessment with multilingual embeddings and reference-free quality estimation (QE). For parallelism, we benchmark four embedding models on FLORES-200 and BOUQuET retrieval tasks, covering 6,654 source--target directions in our target language-pair inventory. For QE, we evaluate nine reference-free evaluators on professional FLORES-200 translations across 41,412 ordered source--target directions. Results show that no model is universally reliable across translation directions. Naive QE ensembles dilute strong model signals, while documented target-language coverage is strongly associated with higher QE scores. Overall, these findings suggest that multilingual parallel-data assessment is best approached as a direction-aware routing and calibration problem, where no single universal metric is expected to suffice across all languages.