ChatPaper.aiChatPaper

Estimativa de Qualidade Não Supervisionada em Nível de Palavra para Tradução Automática Através da Perspectiva de (Des)acordo entre Anotadores

Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

May 29, 2025
Autores: Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza
cs.AI

Resumo

A estimativa de qualidade em nível de palavra (WQE, na sigla em inglês) tem como objetivo identificar automaticamente erros detalhados em saídas de tradução automática e tem encontrado diversas aplicações, incluindo a assistência a tradutores durante a pós-edição. As técnicas modernas de WQE costumam ser dispendiosas, envolvendo o uso de grandes modelos de linguagem ou treinamento específico com grandes quantidades de dados rotulados manualmente. Neste trabalho, investigamos alternativas eficientes que exploram avanços recentes em interpretabilidade de modelos de linguagem e quantificação de incerteza para identificar erros de tradução a partir do funcionamento interno dos modelos de tradução. Em nossa avaliação, que abrange 14 métricas em 12 direções de tradução, quantificamos o impacto da variação de rótulos humanos no desempenho das métricas utilizando múltiplos conjuntos de rótulos humanos. Nossos resultados destacam o potencial ainda não explorado de métricas não supervisionadas, as limitações de métodos supervisionados diante da incerteza nos rótulos e a fragilidade de práticas de avaliação baseadas em um único anotador.
English
Word-level quality estimation (WQE) aims to automatically identify fine-grained error spans in machine-translated outputs and has found many uses, including assisting translators during post-editing. Modern WQE techniques are often expensive, involving prompting of large language models or ad-hoc training on large amounts of human-labeled data. In this work, we investigate efficient alternatives exploiting recent advances in language model interpretability and uncertainty quantification to identify translation errors from the inner workings of translation models. In our evaluation spanning 14 metrics across 12 translation directions, we quantify the impact of human label variation on metric performance by using multiple sets of human labels. Our results highlight the untapped potential of unsupervised metrics, the shortcomings of supervised methods when faced with label uncertainty, and the brittleness of single-annotator evaluation practices.
PDF12December 11, 2025