QE4PE: Woordniveau Kwaliteitsschatting voor Menselijke Nabewerking
QE4PE: Word-level Quality Estimation for Human Post-Editing
March 4, 2025
Auteurs: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza
cs.AI
Samenvatting
Woordniveau-kwaliteitsschatting (QE) detecteert foutieve segmenten in machinaal gegenereerde vertalingen, wat het menselijk na-editeren kan sturen en vergemakkelijken. Hoewel de nauwkeurigheid van woordniveau-QE-systemen uitgebreid is geëvalueerd, blijven hun bruikbaarheid en downstream-impact op de snelheid, kwaliteit en bewerkingskeuzes van menselijk na-editeren onderbelicht. Onze QE4PE-studie onderzoekt de invloed van woordniveau-QE op het na-editeren van machinaal gegenereerde vertalingen (MT) in een realistische setting met 42 professionele na-editors in twee vertaalrichtingen. We vergelijken vier modaliteiten voor het markeren van foutieve segmenten, waaronder gesuperviseerde en op onzekerheid gebaseerde woordniveau-QE-methoden, voor het identificeren van potentiële fouten in de uitvoer van een state-of-the-art neuraal MT-model. De inspanning en productiviteit van het na-editeren worden geschat aan de hand van gedragslogboeken, terwijl kwaliteitsverbeteringen worden beoordeeld door menselijke annotatie op woord- en segmentniveau. We constateren dat domein, taal en de snelheid van de editors kritieke factoren zijn bij het bepalen van de effectiviteit van markeringen, waarbij bescheiden verschillen tussen door mensen gemaakte en geautomatiseerde QE-markeringen een kloof tussen nauwkeurigheid en bruikbaarheid in professionele workflows benadrukken.
English
Word-level quality estimation (QE) detects erroneous spans in machine
translations, which can direct and facilitate human post-editing. While the
accuracy of word-level QE systems has been assessed extensively, their
usability and downstream influence on the speed, quality and editing choices of
human post-editing remain understudied. Our QE4PE study investigates the impact
of word-level QE on machine translation (MT) post-editing in a realistic
setting involving 42 professional post-editors across two translation
directions. We compare four error-span highlight modalities, including
supervised and uncertainty-based word-level QE methods, for identifying
potential errors in the outputs of a state-of-the-art neural MT model.
Post-editing effort and productivity are estimated by behavioral logs, while
quality improvements are assessed by word- and segment-level human annotation.
We find that domain, language and editors' speed are critical factors in
determining highlights' effectiveness, with modest differences between
human-made and automated QE highlights underlining a gap between accuracy and
usability in professional workflows.Summary
AI-Generated Summary