Независимая оценка качества машинного перевода на уровне слов через призму (не)согласия аннотаторов
Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement
May 29, 2025
Авторы: Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza
cs.AI
Аннотация
Оценка качества на уровне слов (WQE) направлена на автоматическое выявление детализированных ошибок в машинно переведенных текстах и нашла широкое применение, включая помощь переводчикам в процессе пост-редактирования. Современные методы WQE часто являются затратными, включая запросы к крупным языковым моделям или специальное обучение на больших объемах данных, размеченных человеком. В данной работе мы исследуем эффективные альтернативы, используя последние достижения в области интерпретируемости языковых моделей и количественной оценки неопределенности для выявления ошибок перевода на основе внутренних механизмов моделей перевода. В нашей оценке, охватывающей 14 метрик по 12 направлениям перевода, мы количественно определяем влияние вариативности человеческой разметки на производительность метрик, используя несколько наборов человеческих аннотаций. Наши результаты подчеркивают нереализованный потенциал неконтролируемых метрик, недостатки контролируемых методов при работе с неопределенностью в разметке и хрупкость практик оценки с использованием одного аннотатора.
English
Word-level quality estimation (WQE) aims to automatically identify
fine-grained error spans in machine-translated outputs and has found many uses,
including assisting translators during post-editing. Modern WQE techniques are
often expensive, involving prompting of large language models or ad-hoc
training on large amounts of human-labeled data. In this work, we investigate
efficient alternatives exploiting recent advances in language model
interpretability and uncertainty quantification to identify translation errors
from the inner workings of translation models. In our evaluation spanning 14
metrics across 12 translation directions, we quantify the impact of human label
variation on metric performance by using multiple sets of human labels. Our
results highlight the untapped potential of unsupervised metrics, the
shortcomings of supervised methods when faced with label uncertainty, and the
brittleness of single-annotator evaluation practices.Summary
AI-Generated Summary