ChatPaper.aiChatPaper

QE4PE: 인간 후편집을 위한 단어 수준 품질 추정

QE4PE: Word-level Quality Estimation for Human Post-Editing

March 4, 2025
저자: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza
cs.AI

초록

단어 수준 품질 평가(QE)는 기계 번역에서 오류가 있는 부분을 탐지하여 인간의 사후 편집을 안내하고 촉진할 수 있습니다. 단어 수준 QE 시스템의 정확도는 광범위하게 평가되었지만, 이러한 시스템의 사용성과 인간 사후 편집의 속도, 품질 및 편집 선택에 미치는 영향은 아직 충분히 연구되지 않았습니다. 우리의 QE4PE 연구는 두 가지 번역 방향에서 42명의 전문 사후 편집자가 참여한 현실적인 환경에서 단어 수준 QE가 기계 번역(MT) 사후 편집에 미치는 영향을 조사합니다. 우리는 최첨단 신경망 MT 모델의 출력에서 잠재적 오류를 식별하기 위해 지도 학습 및 불확실성 기반 단어 수준 QE 방법을 포함한 네 가지 오류 범위 강조 방식을 비교합니다. 사후 편집 노력과 생산성은 행동 로그를 통해 추정되며, 품질 개선은 단어 및 세그먼트 수준의 인간 주석을 통해 평가됩니다. 우리는 도메인, 언어 및 편집자의 속도가 강조의 효과를 결정하는 데 중요한 요소임을 발견했으며, 인간이 만든 QE 강조와 자동화된 QE 강조 사이의 미미한 차이는 전문 워크플로우에서 정확도와 사용성 간의 격차를 강조합니다.
English
Word-level quality estimation (QE) detects erroneous spans in machine translations, which can direct and facilitate human post-editing. While the accuracy of word-level QE systems has been assessed extensively, their usability and downstream influence on the speed, quality and editing choices of human post-editing remain understudied. Our QE4PE study investigates the impact of word-level QE on machine translation (MT) post-editing in a realistic setting involving 42 professional post-editors across two translation directions. We compare four error-span highlight modalities, including supervised and uncertainty-based word-level QE methods, for identifying potential errors in the outputs of a state-of-the-art neural MT model. Post-editing effort and productivity are estimated by behavioral logs, while quality improvements are assessed by word- and segment-level human annotation. We find that domain, language and editors' speed are critical factors in determining highlights' effectiveness, with modest differences between human-made and automated QE highlights underlining a gap between accuracy and usability in professional workflows.

Summary

AI-Generated Summary

PDF62March 6, 2025