Unüberwachte Wortebenen-Qualitätsschätzung für maschinelle Übersetzung durch die Linse der (Un-)Übereinstimmung von Annotatoren
Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement
May 29, 2025
Autoren: Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza
cs.AI
Zusammenfassung
Wortqualitätsabschätzung (Word-level Quality Estimation, WQE) zielt darauf ab, feingranulare Fehlerbereiche in maschinell übersetzten Ausgaben automatisch zu identifizieren und findet vielfältige Anwendungen, unter anderem bei der Unterstützung von Übersetzern während des Post-Editing-Prozesses. Moderne WQE-Techniken sind oft aufwendig, da sie das Prompting großer Sprachmodelle oder das Ad-hoc-Training mit großen Mengen an manuell annotierten Daten erfordern. In dieser Arbeit untersuchen wir effiziente Alternativen, die jüngste Fortschritte in der Interpretierbarkeit von Sprachmodellen und der Unsicherheitsquantifizierung nutzen, um Übersetzungsfehler aus den inneren Abläufen von Übersetzungsmodellen zu identifizieren. In unserer Auswertung, die 14 Metriken über 12 Übersetzungsrichtungen hinweg umfasst, quantifizieren wir den Einfluss von Variationen in menschlichen Annotationen auf die Leistung der Metriken, indem wir mehrere Sätze von menschlichen Labels verwenden. Unsere Ergebnisse verdeutlichen das ungenutzte Potenzial unüberwachter Metriken, die Schwächen überwachter Methoden bei Unsicherheit in den Labels sowie die Anfälligkeit von Evaluierungspraktiken, die auf einzelnen Annotatoren basieren.
English
Word-level quality estimation (WQE) aims to automatically identify
fine-grained error spans in machine-translated outputs and has found many uses,
including assisting translators during post-editing. Modern WQE techniques are
often expensive, involving prompting of large language models or ad-hoc
training on large amounts of human-labeled data. In this work, we investigate
efficient alternatives exploiting recent advances in language model
interpretability and uncertainty quantification to identify translation errors
from the inner workings of translation models. In our evaluation spanning 14
metrics across 12 translation directions, we quantify the impact of human label
variation on metric performance by using multiple sets of human labels. Our
results highlight the untapped potential of unsupervised metrics, the
shortcomings of supervised methods when faced with label uncertainty, and the
brittleness of single-annotator evaluation practices.Summary
AI-Generated Summary