QE4PE: Estimación de Calidad a Nivel de Palabra para la Edición Humana Posterior
QE4PE: Word-level Quality Estimation for Human Post-Editing
March 4, 2025
Autores: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza
cs.AI
Resumen
La estimación de calidad a nivel de palabra (QE, por sus siglas en inglés) detecta segmentos erróneos en traducciones automáticas, lo que puede guiar y facilitar la post-edición humana. Si bien la precisión de los sistemas de QE a nivel de palabra ha sido evaluada ampliamente, su usabilidad y su influencia en la velocidad, calidad y decisiones de edición durante la post-edición humana siguen siendo poco estudiadas. Nuestro estudio QE4PE investiga el impacto de la QE a nivel de palabra en la post-edición de traducción automática (MT) en un entorno realista que involucra a 42 post-editores profesionales en dos direcciones de traducción. Comparamos cuatro modalidades de resaltado de segmentos erróneos, incluyendo métodos de QE a nivel de palabra supervisados y basados en incertidumbre, para identificar posibles errores en las salidas de un modelo de MT neuronal de última generación. El esfuerzo y la productividad de la post-edición se estiman mediante registros de comportamiento, mientras que las mejoras en la calidad se evalúan mediante anotaciones humanas a nivel de palabra y de segmento. Encontramos que el dominio, el idioma y la velocidad de los editores son factores críticos para determinar la efectividad de los resaltados, con diferencias modestas entre los resaltados de QE realizados por humanos y los automatizados, lo que subraya una brecha entre la precisión y la usabilidad en los flujos de trabajo profesionales.
English
Word-level quality estimation (QE) detects erroneous spans in machine
translations, which can direct and facilitate human post-editing. While the
accuracy of word-level QE systems has been assessed extensively, their
usability and downstream influence on the speed, quality and editing choices of
human post-editing remain understudied. Our QE4PE study investigates the impact
of word-level QE on machine translation (MT) post-editing in a realistic
setting involving 42 professional post-editors across two translation
directions. We compare four error-span highlight modalities, including
supervised and uncertainty-based word-level QE methods, for identifying
potential errors in the outputs of a state-of-the-art neural MT model.
Post-editing effort and productivity are estimated by behavioral logs, while
quality improvements are assessed by word- and segment-level human annotation.
We find that domain, language and editors' speed are critical factors in
determining highlights' effectiveness, with modest differences between
human-made and automated QE highlights underlining a gap between accuracy and
usability in professional workflows.Summary
AI-Generated Summary