ChatPaper.aiChatPaper

QE4PE: Woordniveau Kwaliteitsschatting voor Menselijke Nabewerking

QE4PE: Word-level Quality Estimation for Human Post-Editing

March 4, 2025
Auteurs: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza
cs.AI

Samenvatting

Woordniveau-kwaliteitsschatting (QE) detecteert foutieve segmenten in machinaal gegenereerde vertalingen, wat het menselijk na-editeren kan sturen en vergemakkelijken. Hoewel de nauwkeurigheid van woordniveau-QE-systemen uitgebreid is geëvalueerd, blijven hun bruikbaarheid en downstream-impact op de snelheid, kwaliteit en bewerkingskeuzes van menselijk na-editeren onderbelicht. Onze QE4PE-studie onderzoekt de invloed van woordniveau-QE op het na-editeren van machinaal gegenereerde vertalingen (MT) in een realistische setting met 42 professionele na-editors in twee vertaalrichtingen. We vergelijken vier modaliteiten voor het markeren van foutieve segmenten, waaronder gesuperviseerde en op onzekerheid gebaseerde woordniveau-QE-methoden, voor het identificeren van potentiële fouten in de uitvoer van een state-of-the-art neuraal MT-model. De inspanning en productiviteit van het na-editeren worden geschat aan de hand van gedragslogboeken, terwijl kwaliteitsverbeteringen worden beoordeeld door menselijke annotatie op woord- en segmentniveau. We constateren dat domein, taal en de snelheid van de editors kritieke factoren zijn bij het bepalen van de effectiviteit van markeringen, waarbij bescheiden verschillen tussen door mensen gemaakte en geautomatiseerde QE-markeringen een kloof tussen nauwkeurigheid en bruikbaarheid in professionele workflows benadrukken.
English
Word-level quality estimation (QE) detects erroneous spans in machine translations, which can direct and facilitate human post-editing. While the accuracy of word-level QE systems has been assessed extensively, their usability and downstream influence on the speed, quality and editing choices of human post-editing remain understudied. Our QE4PE study investigates the impact of word-level QE on machine translation (MT) post-editing in a realistic setting involving 42 professional post-editors across two translation directions. We compare four error-span highlight modalities, including supervised and uncertainty-based word-level QE methods, for identifying potential errors in the outputs of a state-of-the-art neural MT model. Post-editing effort and productivity are estimated by behavioral logs, while quality improvements are assessed by word- and segment-level human annotation. We find that domain, language and editors' speed are critical factors in determining highlights' effectiveness, with modest differences between human-made and automated QE highlights underlining a gap between accuracy and usability in professional workflows.

Summary

AI-Generated Summary

PDF62March 6, 2025