Onbewaakte woordniveau kwaliteitsschatting voor machinaal vertalen Door de bril van annotatoren (on)overeenstemming
Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement
May 29, 2025
Auteurs: Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza
cs.AI
Samenvatting
Woordniveau-kwaliteitsschatting (WQE) heeft als doel om fijnmazige foutsporen in machinaal vertaalde uitvoer automatisch te identificeren en kent vele toepassingen, waaronder het assisteren van vertalers tijdens het nabewerken. Moderne WQE-technieken zijn vaak kostbaar, waarbij grote taalmodellen worden ingezet of ad-hoc training plaatsvindt op grote hoeveelheden door mensen gelabelde data. In dit werk onderzoeken we efficiënte alternatieven die gebruikmaken van recente vooruitgang in de interpreteerbaarheid van taalmodellen en onzekerheidskwantificering om vertaalfouten te identificeren vanuit de interne werking van vertaalmodellen. In onze evaluatie, die 14 metrieken omvat over 12 vertaalrichtingen, kwantificeren we de impact van variatie in menselijke labels op de prestaties van metrieken door gebruik te maken van meerdere sets menselijke labels. Onze resultaten benadrukken het onbenutte potentieel van onbewaakte metrieken, de tekortkomingen van bewaakte methoden bij onzekerheid in labels, en de kwetsbaarheid van evaluatiepraktijken met één annotator.
English
Word-level quality estimation (WQE) aims to automatically identify
fine-grained error spans in machine-translated outputs and has found many uses,
including assisting translators during post-editing. Modern WQE techniques are
often expensive, involving prompting of large language models or ad-hoc
training on large amounts of human-labeled data. In this work, we investigate
efficient alternatives exploiting recent advances in language model
interpretability and uncertainty quantification to identify translation errors
from the inner workings of translation models. In our evaluation spanning 14
metrics across 12 translation directions, we quantify the impact of human label
variation on metric performance by using multiple sets of human labels. Our
results highlight the untapped potential of unsupervised metrics, the
shortcomings of supervised methods when faced with label uncertainty, and the
brittleness of single-annotator evaluation practices.