Estimación de Calidad no Supervisada a Nivel de Palabra para Traducción Automática a Través de la Lente del (Des)acuerdo entre Anotadores
Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement
May 29, 2025
Autores: Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza
cs.AI
Resumen
La estimación de calidad a nivel de palabra (WQE, por sus siglas en inglés) tiene como objetivo identificar automáticamente errores detallados en las salidas de traducción automática y ha encontrado numerosas aplicaciones, incluyendo la asistencia a traductores durante la post-edición. Las técnicas modernas de WQE suelen ser costosas, implicando el uso de modelos de lenguaje grandes mediante prompts o el entrenamiento específico con grandes cantidades de datos etiquetados por humanos. En este trabajo, investigamos alternativas eficientes que aprovechan los avances recientes en la interpretabilidad de modelos de lenguaje y la cuantificación de incertidumbre para identificar errores de traducción a partir del funcionamiento interno de los modelos de traducción. En nuestra evaluación, que abarca 14 métricas en 12 direcciones de traducción, cuantificamos el impacto de la variación en las etiquetas humanas sobre el rendimiento de las métricas utilizando múltiples conjuntos de etiquetas humanas. Nuestros resultados destacan el potencial no explotado de las métricas no supervisadas, las limitaciones de los métodos supervisados frente a la incertidumbre en las etiquetas y la fragilidad de las prácticas de evaluación basadas en un único anotador.
English
Word-level quality estimation (WQE) aims to automatically identify
fine-grained error spans in machine-translated outputs and has found many uses,
including assisting translators during post-editing. Modern WQE techniques are
often expensive, involving prompting of large language models or ad-hoc
training on large amounts of human-labeled data. In this work, we investigate
efficient alternatives exploiting recent advances in language model
interpretability and uncertainty quantification to identify translation errors
from the inner workings of translation models. In our evaluation spanning 14
metrics across 12 translation directions, we quantify the impact of human label
variation on metric performance by using multiple sets of human labels. Our
results highlight the untapped potential of unsupervised metrics, the
shortcomings of supervised methods when faced with label uncertainty, and the
brittleness of single-annotator evaluation practices.Summary
AI-Generated Summary