QE4PE : Estimation de la qualité au niveau des mots pour la post-édition humaine

Résumé

L'estimation de qualité au niveau des mots (QE) détecte les segments erronés dans les traductions automatiques, ce qui peut orienter et faciliter la post-édition humaine. Bien que la précision des systèmes de QE au niveau des mots ait été largement évaluée, leur utilité et leur influence en aval sur la vitesse, la qualité et les choix de révision des post-éditeurs humains restent peu étudiées. Notre étude QE4PE examine l'impact de la QE au niveau des mots sur la post-édition de traductions automatiques (MT) dans un cadre réaliste impliquant 42 post-éditeurs professionnels pour deux directions de traduction. Nous comparons quatre modalités de surlignage des erreurs, incluant des méthodes de QE supervisées et basées sur l'incertitude, pour identifier les erreurs potentielles dans les sorties d'un modèle de traduction neuronale de pointe. L'effort et la productivité de post-édition sont estimés à partir de logs comportementaux, tandis que les améliorations de qualité sont évaluées par des annotations humaines au niveau des mots et des segments. Nous constatons que le domaine, la langue et la vitesse des éditeurs sont des facteurs critiques dans l'efficacité des surlignages, avec des différences modestes entre les surlignages manuels et automatisés, soulignant un écart entre la précision et l'utilité dans les workflows professionnels.

English

Word-level quality estimation (QE) detects erroneous spans in machine translations, which can direct and facilitate human post-editing. While the accuracy of word-level QE systems has been assessed extensively, their usability and downstream influence on the speed, quality and editing choices of human post-editing remain understudied. Our QE4PE study investigates the impact of word-level QE on machine translation (MT) post-editing in a realistic setting involving 42 professional post-editors across two translation directions. We compare four error-span highlight modalities, including supervised and uncertainty-based word-level QE methods, for identifying potential errors in the outputs of a state-of-the-art neural MT model. Post-editing effort and productivity are estimated by behavioral logs, while quality improvements are assessed by word- and segment-level human annotation. We find that domain, language and editors' speed are critical factors in determining highlights' effectiveness, with modest differences between human-made and automated QE highlights underlining a gap between accuracy and usability in professional workflows.

QE4PE : Estimation de la qualité au niveau des mots pour la post-édition humaine

QE4PE: Word-level Quality Estimation for Human Post-Editing

Résumé

Support