ChatPaper.aiChatPaper

Estimation de qualité non supervisée au niveau des mots pour la traduction automatique À travers le prisme des (dés)accords des annotateurs

Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

May 29, 2025
Auteurs: Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza
cs.AI

Résumé

L'estimation de qualité au niveau des mots (WQE) vise à identifier automatiquement les erreurs fines dans les sorties de traduction automatique et trouve de nombreuses applications, notamment pour assister les traducteurs lors de la post-édition. Les techniques modernes de WQE sont souvent coûteuses, impliquant l'utilisation de grands modèles de langage ou un entraînement ad hoc sur de grandes quantités de données annotées manuellement. Dans ce travail, nous explorons des alternatives efficaces exploitant les avancées récentes en interprétabilité des modèles de langage et en quantification de l'incertitude pour identifier les erreurs de traduction à partir du fonctionnement interne des modèles de traduction. Dans notre évaluation couvrant 14 métriques sur 12 directions de traduction, nous quantifions l'impact de la variation des annotations humaines sur la performance des métriques en utilisant plusieurs ensembles d'annotations humaines. Nos résultats mettent en évidence le potentiel inexploité des métriques non supervisées, les limites des méthodes supervisées face à l'incertitude des annotations, et la fragilité des pratiques d'évaluation basées sur un seul annotateur.
English
Word-level quality estimation (WQE) aims to automatically identify fine-grained error spans in machine-translated outputs and has found many uses, including assisting translators during post-editing. Modern WQE techniques are often expensive, involving prompting of large language models or ad-hoc training on large amounts of human-labeled data. In this work, we investigate efficient alternatives exploiting recent advances in language model interpretability and uncertainty quantification to identify translation errors from the inner workings of translation models. In our evaluation spanning 14 metrics across 12 translation directions, we quantify the impact of human label variation on metric performance by using multiple sets of human labels. Our results highlight the untapped potential of unsupervised metrics, the shortcomings of supervised methods when faced with label uncertainty, and the brittleness of single-annotator evaluation practices.

Summary

AI-Generated Summary

PDF22May 30, 2025