ChatPaper.aiChatPaper

대형 추론 모델은 좋은 번역 평가자일까? 분석과 성능 향상

Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

October 23, 2025
저자: Runzhe Zhan, Zhihong Huang, Xinyi Yang, Lidia S. Chao, Min Yang, Derek F. Wong
cs.AI

초록

대규모 추론 모델(LRM)의 최근 발전은 최종 답변 생성 전 중간 '사고' 과정을 도입하여 복잡한 다운스트림 작업에서의 추론 능력을 향상시켰습니다. 그러나 기계 번역(MT) 품질 평가자로서 LRM의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 연구는 MT 평가에서 LRM을 평가자로 활용하는 첫 번째 체계적인 분석을 제공합니다. 우리는 LRM이 맞춤형 평가 자료를 필요로 하고, 단순한 사례에서 '지나치게 생각'하는 경향이 있으며, 과대 평가를 초래하는 채점 메커니즘 문제가 있음을 밝혀내는 주요 과제를 식별합니다. 이를 해결하기 위해 인간과 유사한 합성 사고 궤적을 통해 LRM 사고를 교정하는 방법을 제안합니다. WMT24 Metrics 벤치마크에 대한 실험 결과, 이 접근법이 사고 예산을 약 35배 크게 줄이면서 동시에 7B에서 32B에 이르는 다양한 규모의 LRM에서 평가 성능을 향상시킴을 보여줍니다(예: R1-Distill-Qwen-7B은 +8.7 상관 관계 점수 향상 달성). 이러한 결과는 효율적으로 교정된 LRM이 세분화된 자동 MT 평가를 발전시킬 잠재력을 강조합니다.
English
Recent advancements in large reasoning models (LRMs) have introduced an intermediate "thinking" process prior to generating final answers, improving their reasoning capabilities on complex downstream tasks. However, the potential of LRMs as evaluators for machine translation (MT) quality remains underexplored. We provides the first systematic analysis of LRM-as-a-judge in MT evaluation. We identify key challenges, revealing LRMs require tailored evaluation materials, tend to "overthink" simpler instances and have issues with scoring mechanisms leading to overestimation. To address these, we propose to calibrate LRM thinking by training them on synthetic, human-like thinking trajectories. Our experiments on WMT24 Metrics benchmarks demonstrate that this approach largely reduces thinking budgets by ~35x while concurrently improving evaluation performance across different LRM scales from 7B to 32B (e.g., R1-Distill-Qwen-7B achieves a +8.7 correlation point improvement). These findings highlight the potential of efficiently calibrated LRMs to advance fine-grained automatic MT evaluation.
PDF41December 17, 2025