QE4PE : Estimation de la qualité au niveau des mots pour la post-édition humaine
QE4PE: Word-level Quality Estimation for Human Post-Editing
March 4, 2025
Auteurs: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza
cs.AI
Résumé
L'estimation de qualité au niveau des mots (QE) détecte les segments erronés dans les traductions automatiques, ce qui peut orienter et faciliter la post-édition humaine. Bien que la précision des systèmes de QE au niveau des mots ait été largement évaluée, leur utilité et leur influence en aval sur la vitesse, la qualité et les choix de révision des post-éditeurs humains restent peu étudiées. Notre étude QE4PE examine l'impact de la QE au niveau des mots sur la post-édition de traductions automatiques (MT) dans un cadre réaliste impliquant 42 post-éditeurs professionnels pour deux directions de traduction. Nous comparons quatre modalités de surlignage des erreurs, incluant des méthodes de QE supervisées et basées sur l'incertitude, pour identifier les erreurs potentielles dans les sorties d'un modèle de traduction neuronale de pointe. L'effort et la productivité de post-édition sont estimés à partir de logs comportementaux, tandis que les améliorations de qualité sont évaluées par des annotations humaines au niveau des mots et des segments. Nous constatons que le domaine, la langue et la vitesse des éditeurs sont des facteurs critiques dans l'efficacité des surlignages, avec des différences modestes entre les surlignages manuels et automatisés, soulignant un écart entre la précision et l'utilité dans les workflows professionnels.
English
Word-level quality estimation (QE) detects erroneous spans in machine
translations, which can direct and facilitate human post-editing. While the
accuracy of word-level QE systems has been assessed extensively, their
usability and downstream influence on the speed, quality and editing choices of
human post-editing remain understudied. Our QE4PE study investigates the impact
of word-level QE on machine translation (MT) post-editing in a realistic
setting involving 42 professional post-editors across two translation
directions. We compare four error-span highlight modalities, including
supervised and uncertainty-based word-level QE methods, for identifying
potential errors in the outputs of a state-of-the-art neural MT model.
Post-editing effort and productivity are estimated by behavioral logs, while
quality improvements are assessed by word- and segment-level human annotation.
We find that domain, language and editors' speed are critical factors in
determining highlights' effectiveness, with modest differences between
human-made and automated QE highlights underlining a gap between accuracy and
usability in professional workflows.Summary
AI-Generated Summary