QE4PE: Estimativa de Qualidade em Nível de Palavra para Pós-Edição Humana
QE4PE: Word-level Quality Estimation for Human Post-Editing
March 4, 2025
Autores: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza
cs.AI
Resumo
A estimativa de qualidade em nível de palavra (QE, do inglês Quality Estimation) detecta trechos errôneos em traduções automáticas, o que pode orientar e facilitar a pós-edição humana. Embora a precisão dos sistemas de QE em nível de palavra tenha sido amplamente avaliada, sua usabilidade e influência subsequente na velocidade, qualidade e escolhas de edição durante a pós-edição humana permanecem pouco estudadas. Nosso estudo QE4PE investiga o impacto da QE em nível de palavra na pós-edição de tradução automática (MT, do inglês Machine Translation) em um cenário realista, envolvendo 42 pós-editores profissionais em duas direções de tradução. Comparamos quatro modalidades de destaque de trechos de erro, incluindo métodos de QE em nível de palavra supervisionados e baseados em incerteza, para identificar possíveis erros nas saídas de um modelo de MT neural de última geração. O esforço e a produtividade da pós-edição são estimados por meio de registros comportamentais, enquanto as melhorias de qualidade são avaliadas por anotações humanas em nível de palavra e de segmento. Descobrimos que o domínio, o idioma e a velocidade dos editores são fatores críticos para determinar a eficácia dos destaques, com diferenças modestas entre destaques de QE feitos por humanos e automatizados, destacando uma lacuna entre precisão e usabilidade em fluxos de trabalho profissionais.
English
Word-level quality estimation (QE) detects erroneous spans in machine
translations, which can direct and facilitate human post-editing. While the
accuracy of word-level QE systems has been assessed extensively, their
usability and downstream influence on the speed, quality and editing choices of
human post-editing remain understudied. Our QE4PE study investigates the impact
of word-level QE on machine translation (MT) post-editing in a realistic
setting involving 42 professional post-editors across two translation
directions. We compare four error-span highlight modalities, including
supervised and uncertainty-based word-level QE methods, for identifying
potential errors in the outputs of a state-of-the-art neural MT model.
Post-editing effort and productivity are estimated by behavioral logs, while
quality improvements are assessed by word- and segment-level human annotation.
We find that domain, language and editors' speed are critical factors in
determining highlights' effectiveness, with modest differences between
human-made and automated QE highlights underlining a gap between accuracy and
usability in professional workflows.Summary
AI-Generated Summary