QE4PE: Wortbezogene Qualitätsabschätzung für menschliches Nachbearbeiten
QE4PE: Word-level Quality Estimation for Human Post-Editing
March 4, 2025
Autoren: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza
cs.AI
Zusammenfassung
Die Qualitätsschätzung auf Wortebene (Quality Estimation, QE) erkennt fehlerhafte Abschnitte in maschinellen Übersetzungen, was die menschliche Nachbearbeitung lenken und erleichtern kann. Während die Genauigkeit von QE-Systemen auf Wortebene umfassend bewertet wurde, bleiben ihre Benutzerfreundlichkeit und ihr Einfluss auf die Geschwindigkeit, Qualität und Bearbeitungsentscheidungen bei der menschlichen Nachbearbeitung weitgehend unerforscht. Unsere QE4PE-Studie untersucht die Auswirkungen von QE auf Wortebene auf die Nachbearbeitung von maschinellen Übersetzungen (MT) in einem realistischen Umfeld mit 42 professionellen Nachbearbeitern in zwei Übersetzungsrichtungen. Wir vergleichen vier Modalitäten zur Hervorhebung von Fehlerabschnitten, darunter überwachte und unsicherheitsbasierte QE-Methoden auf Wortebene, zur Identifizierung potenzieller Fehler in den Ausgaben eines modernen neuronalen MT-Modells. Der Aufwand und die Produktivität bei der Nachbearbeitung werden durch Verhaltensprotokolle geschätzt, während Qualitätsverbesserungen durch menschliche Annotationen auf Wort- und Segmentebene bewertet werden. Wir stellen fest, dass Domäne, Sprache und die Geschwindigkeit der Bearbeiter entscheidende Faktoren für die Effektivität der Hervorhebungen sind, wobei die bescheidenen Unterschiede zwischen menschlich erstellten und automatisierten QE-Hervorhebungen eine Lücke zwischen Genauigkeit und Benutzerfreundlichkeit in professionellen Arbeitsabläufen unterstreichen.
English
Word-level quality estimation (QE) detects erroneous spans in machine
translations, which can direct and facilitate human post-editing. While the
accuracy of word-level QE systems has been assessed extensively, their
usability and downstream influence on the speed, quality and editing choices of
human post-editing remain understudied. Our QE4PE study investigates the impact
of word-level QE on machine translation (MT) post-editing in a realistic
setting involving 42 professional post-editors across two translation
directions. We compare four error-span highlight modalities, including
supervised and uncertainty-based word-level QE methods, for identifying
potential errors in the outputs of a state-of-the-art neural MT model.
Post-editing effort and productivity are estimated by behavioral logs, while
quality improvements are assessed by word- and segment-level human annotation.
We find that domain, language and editors' speed are critical factors in
determining highlights' effectiveness, with modest differences between
human-made and automated QE highlights underlining a gap between accuracy and
usability in professional workflows.Summary
AI-Generated Summary