ChatPaper.aiChatPaper

Stima della qualità a livello di parola non supervisionata per la traduzione automatica Attraverso la lente del (dis)accordo degli annotatori

Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

May 29, 2025
Autori: Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza
cs.AI

Abstract

La stima della qualità a livello di parola (Word-level Quality Estimation, WQE) mira a identificare automaticamente errori granulari negli output della traduzione automatica e ha trovato molteplici applicazioni, tra cui l'assistenza ai traduttori durante la post-editing. Le moderne tecniche di WQE sono spesso costose, implicando il prompting di grandi modelli linguistici o l'addestramento ad hoc su grandi quantità di dati etichettati manualmente. In questo lavoro, esploriamo alternative efficienti che sfruttano i recenti progressi nell'interpretabilità dei modelli linguistici e nella quantificazione dell'incertezza per identificare errori di traduzione dal funzionamento interno dei modelli di traduzione. Nella nostra valutazione, che copre 14 metriche su 12 direzioni di traduzione, quantifichiamo l'impatto della variazione delle etichette umane sulle prestazioni delle metriche utilizzando più set di etichette umane. I nostri risultati evidenziano il potenziale inesplorato delle metriche non supervisionate, le carenze dei metodi supervisionati di fronte all'incertezza delle etichette e la fragilità delle pratiche di valutazione basate su un singolo annotatore.
English
Word-level quality estimation (WQE) aims to automatically identify fine-grained error spans in machine-translated outputs and has found many uses, including assisting translators during post-editing. Modern WQE techniques are often expensive, involving prompting of large language models or ad-hoc training on large amounts of human-labeled data. In this work, we investigate efficient alternatives exploiting recent advances in language model interpretability and uncertainty quantification to identify translation errors from the inner workings of translation models. In our evaluation spanning 14 metrics across 12 translation directions, we quantify the impact of human label variation on metric performance by using multiple sets of human labels. Our results highlight the untapped potential of unsupervised metrics, the shortcomings of supervised methods when faced with label uncertainty, and the brittleness of single-annotator evaluation practices.
PDF22May 30, 2025