QE4PE: Оценка качества на уровне слов для ручного постредактирования
QE4PE: Word-level Quality Estimation for Human Post-Editing
March 4, 2025
Авторы: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza
cs.AI
Аннотация
Оценка качества на уровне слов (QE) выявляет ошибочные фрагменты в машинных переводах, что может направлять и облегчать процесс постредактирования человеком. Хотя точность систем QE на уровне слов была тщательно изучена, их практическая применимость и влияние на скорость, качество и выбор редакторских правок в процессе постредактирования остаются недостаточно исследованными. Наше исследование QE4PE изучает влияние QE на уровне слов на постредактирование машинного перевода (MT) в реалистичных условиях с участием 42 профессиональных редакторов для двух направлений перевода. Мы сравниваем четыре способа выделения ошибочных фрагментов, включая методы QE на основе контролируемого обучения и неопределенности, для выявления потенциальных ошибок в выводах современной нейронной модели MT. Усилия и производительность постредактирования оцениваются с помощью анализа поведенческих логов, а улучшения качества — с помощью аннотирования на уровне слов и сегментов. Мы обнаруживаем, что предметная область, язык и скорость работы редакторов являются ключевыми факторами, определяющими эффективность выделения ошибок, при этом скромные различия между выделениями, сделанными человеком и автоматизированными системами QE, подчеркивают разрыв между точностью и применимостью в профессиональных рабочих процессах.
English
Word-level quality estimation (QE) detects erroneous spans in machine
translations, which can direct and facilitate human post-editing. While the
accuracy of word-level QE systems has been assessed extensively, their
usability and downstream influence on the speed, quality and editing choices of
human post-editing remain understudied. Our QE4PE study investigates the impact
of word-level QE on machine translation (MT) post-editing in a realistic
setting involving 42 professional post-editors across two translation
directions. We compare four error-span highlight modalities, including
supervised and uncertainty-based word-level QE methods, for identifying
potential errors in the outputs of a state-of-the-art neural MT model.
Post-editing effort and productivity are estimated by behavioral logs, while
quality improvements are assessed by word- and segment-level human annotation.
We find that domain, language and editors' speed are critical factors in
determining highlights' effectiveness, with modest differences between
human-made and automated QE highlights underlining a gap between accuracy and
usability in professional workflows.Summary
AI-Generated Summary