QE4PE: Stima della Qualità a Livello di Parola per la Post-Edizione Umana
QE4PE: Word-level Quality Estimation for Human Post-Editing
March 4, 2025
Autori: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza
cs.AI
Abstract
La stima della qualità a livello di parola (Quality Estimation, QE) rileva gli errori nelle traduzioni automatiche, il che può guidare e facilitare la post-edizione umana. Sebbene l'accuratezza dei sistemi di QE a livello di parola sia stata ampiamente valutata, la loro usabilità e l'influenza sulla velocità, qualità e scelte di modifica durante la post-edizione umana rimangono poco studiate. Il nostro studio QE4PE indaga l'impatto della QE a livello di parola sulla post-edizione delle traduzioni automatiche (MT) in un contesto realistico che coinvolge 42 post-editori professionisti in due direzioni di traduzione. Confrontiamo quattro modalità di evidenziazione degli errori, inclusi metodi di QE a livello di parola supervisionati e basati sull'incertezza, per identificare potenziali errori negli output di un modello di traduzione automatica neurale all'avanguardia. Lo sforzo e la produttività della post-edizione sono stimati tramite log comportamentali, mentre i miglioramenti della qualità sono valutati tramite annotazioni umane a livello di parola e di segmento. Scopriamo che il dominio, la lingua e la velocità degli editori sono fattori critici nel determinare l'efficacia delle evidenziazioni, con differenze modeste tra le evidenziazioni di QE create dall'uomo e quelle automatizzate, sottolineando un divario tra accuratezza e usabilità nei flussi di lavoro professionali.
English
Word-level quality estimation (QE) detects erroneous spans in machine
translations, which can direct and facilitate human post-editing. While the
accuracy of word-level QE systems has been assessed extensively, their
usability and downstream influence on the speed, quality and editing choices of
human post-editing remain understudied. Our QE4PE study investigates the impact
of word-level QE on machine translation (MT) post-editing in a realistic
setting involving 42 professional post-editors across two translation
directions. We compare four error-span highlight modalities, including
supervised and uncertainty-based word-level QE methods, for identifying
potential errors in the outputs of a state-of-the-art neural MT model.
Post-editing effort and productivity are estimated by behavioral logs, while
quality improvements are assessed by word- and segment-level human annotation.
We find that domain, language and editors' speed are critical factors in
determining highlights' effectiveness, with modest differences between
human-made and automated QE highlights underlining a gap between accuracy and
usability in professional workflows.