ChatPaper.aiChatPaper

조기 종료 및 즉각적 신뢰도 기반 번역 품질 추정

Early-Exit and Instant Confidence Translation Quality Estimation

February 20, 2025
저자: Vilém Zouhar, Maike Züfle, Beni Egressy, Julius Cheng, Jan Niehues
cs.AI

초록

품질 추정은 기계 번역에서 평가와 생성 모두에 걸쳐 어디에나 존재합니다. 그러나 불행히도 품질 추정 모델은 종종 불투명하고 계산 비용이 많이 들어 대규모 파이프라인의 일부로 사용하기에는 실용적이지 않습니다. 본 연구에서는 두 가지 연관된 문제를 해결합니다: (1) 대규모에서의 품질 추정 비용 절감, (2) 품질 추정을 위한 저비용 불확실성 추정 방법 개발. 후자를 해결하기 위해, 우리는 Instant Confidence COMET을 소개합니다. 이는 이전 접근법의 성능을 유지하면서 비용을 크게 절감한 불확실성 인식 품질 추정 모델입니다. 이를 Early-Exit COMET으로 확장하여, 초기 모델 레이어에서도 품질 점수와 관련 신뢰도를 계산할 수 있게 함으로써 계산을 조기에 종료하고 평가 비용을 줄입니다. 또한, 우리는 이 모델을 기계 번역 재순위화에 적용합니다. Early-Exit COMET을 상위 신뢰 구간 밴딧 알고리즘과 결합하여, 모든 후보에 대해 전체 평가 모델을 실행하지 않고도 대규모 후보 풀에서 최적의 후보를 찾습니다. 평가와 재순위화 모두에서 우리의 방법은 성능 저하를 거의 없이도 필요한 계산량을 50% 줄입니다.
English
Quality estimation is omnipresent in machine translation, for both evaluation and generation. Unfortunately, quality estimation models are often opaque and computationally expensive, making them impractical to be part of large-scale pipelines. In this work, we tackle two connected challenges: (1) reducing the cost of quality estimation at scale, and (2) developing an inexpensive uncertainty estimation method for quality estimation. To address the latter, we introduce Instant Confidence COMET, an uncertainty-aware quality estimation model that matches the performance of previous approaches at a fraction of their costs. We extend this to Early-Exit COMET, a quality estimation model that can compute quality scores and associated confidences already at early model layers, allowing us to early-exit computations and reduce evaluation costs. We also apply our model to machine translation reranking. We combine Early-Exit COMET with an upper confidence bound bandit algorithm to find the best candidate from a large pool without having to run the full evaluation model on all candidates. In both cases (evaluation and reranking) our methods reduce the required compute by 50% with very little degradation in performance.

Summary

AI-Generated Summary

PDF42February 25, 2025