Unüberwachte Wortebenen-Qualitätsschätzung für maschinelle Übersetzung durch die Linse der (Un-)Übereinstimmung von Annotatoren

papers.abstract

Wortqualitätsabschätzung (Word-level Quality Estimation, WQE) zielt darauf ab, feingranulare Fehlerbereiche in maschinell übersetzten Ausgaben automatisch zu identifizieren und findet vielfältige Anwendungen, unter anderem bei der Unterstützung von Übersetzern während des Post-Editing-Prozesses. Moderne WQE-Techniken sind oft aufwendig, da sie das Prompting großer Sprachmodelle oder das Ad-hoc-Training mit großen Mengen an manuell annotierten Daten erfordern. In dieser Arbeit untersuchen wir effiziente Alternativen, die jüngste Fortschritte in der Interpretierbarkeit von Sprachmodellen und der Unsicherheitsquantifizierung nutzen, um Übersetzungsfehler aus den inneren Abläufen von Übersetzungsmodellen zu identifizieren. In unserer Auswertung, die 14 Metriken über 12 Übersetzungsrichtungen hinweg umfasst, quantifizieren wir den Einfluss von Variationen in menschlichen Annotationen auf die Leistung der Metriken, indem wir mehrere Sätze von menschlichen Labels verwenden. Unsere Ergebnisse verdeutlichen das ungenutzte Potenzial unüberwachter Metriken, die Schwächen überwachter Methoden bei Unsicherheit in den Labels sowie die Anfälligkeit von Evaluierungspraktiken, die auf einzelnen Annotatoren basieren.

English

Word-level quality estimation (WQE) aims to automatically identify fine-grained error spans in machine-translated outputs and has found many uses, including assisting translators during post-editing. Modern WQE techniques are often expensive, involving prompting of large language models or ad-hoc training on large amounts of human-labeled data. In this work, we investigate efficient alternatives exploiting recent advances in language model interpretability and uncertainty quantification to identify translation errors from the inner workings of translation models. In our evaluation spanning 14 metrics across 12 translation directions, we quantify the impact of human label variation on metric performance by using multiple sets of human labels. Our results highlight the untapped potential of unsupervised metrics, the shortcomings of supervised methods when faced with label uncertainty, and the brittleness of single-annotator evaluation practices.

Unüberwachte Wortebenen-Qualitätsschätzung für maschinelle Übersetzung durch die Linse der (Un-)Übereinstimmung von Annotatoren

Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

papers.abstract

Support