ChatPaper.aiChatPaper

Onbewaakte woordniveau kwaliteitsschatting voor machinaal vertalen Door de bril van annotatoren (on)overeenstemming

Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

May 29, 2025
Auteurs: Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza
cs.AI

Samenvatting

Woordniveau-kwaliteitsschatting (WQE) heeft als doel om fijnmazige foutsporen in machinaal vertaalde uitvoer automatisch te identificeren en kent vele toepassingen, waaronder het assisteren van vertalers tijdens het nabewerken. Moderne WQE-technieken zijn vaak kostbaar, waarbij grote taalmodellen worden ingezet of ad-hoc training plaatsvindt op grote hoeveelheden door mensen gelabelde data. In dit werk onderzoeken we efficiënte alternatieven die gebruikmaken van recente vooruitgang in de interpreteerbaarheid van taalmodellen en onzekerheidskwantificering om vertaalfouten te identificeren vanuit de interne werking van vertaalmodellen. In onze evaluatie, die 14 metrieken omvat over 12 vertaalrichtingen, kwantificeren we de impact van variatie in menselijke labels op de prestaties van metrieken door gebruik te maken van meerdere sets menselijke labels. Onze resultaten benadrukken het onbenutte potentieel van onbewaakte metrieken, de tekortkomingen van bewaakte methoden bij onzekerheid in labels, en de kwetsbaarheid van evaluatiepraktijken met één annotator.
English
Word-level quality estimation (WQE) aims to automatically identify fine-grained error spans in machine-translated outputs and has found many uses, including assisting translators during post-editing. Modern WQE techniques are often expensive, involving prompting of large language models or ad-hoc training on large amounts of human-labeled data. In this work, we investigate efficient alternatives exploiting recent advances in language model interpretability and uncertainty quantification to identify translation errors from the inner workings of translation models. In our evaluation spanning 14 metrics across 12 translation directions, we quantify the impact of human label variation on metric performance by using multiple sets of human labels. Our results highlight the untapped potential of unsupervised metrics, the shortcomings of supervised methods when faced with label uncertainty, and the brittleness of single-annotator evaluation practices.
PDF12May 30, 2025