ChatPaper.aiChatPaper

大規模推論モデルは優れた翻訳評価者か?分析と性能向上

Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

October 23, 2025
著者: Runzhe Zhan, Zhihong Huang, Xinyi Yang, Lidia S. Chao, Min Yang, Derek F. Wong
cs.AI

要旨

大規模推論モデル(LRM)の近年の進展により、最終回答を生成する前の中間的な「思考」プロセスが導入され、複雑な下流タスクにおける推論能力が向上している。しかし、機械翻訳(MT)品質の評価ツールとしてのLRMの可能性は十分に探究されていない。本研究はMT評価におけるLRM-as-a-judgeの初の体系的分析を提供する。主要な課題として、LRMには特化した評価素材が必要であること、単純な事例に対して「過剰思考」する傾向があること、スコアリング機構の問題から過大評価が生じることなどを明らかにする。これらの課題に対処するため、合成的で人間的な思考軌跡に基づく学習によるLRM思考の較正を提案する。WMT24 Metricsベンチマークでの実験により、このアプローチが思考コストを約35分の1に大幅に削減しつつ、7Bから32Bまでの様々な規模のLRMで評価性能を向上させることを実証した(例えばR1-Distill-Qwen-7Bは+8.7相関ポイントの改善を達成)。これらの知見は、効率的に較正されたLRMが細粒度の自動MT評価を推進する可能性を示唆している。
English
Recent advancements in large reasoning models (LRMs) have introduced an intermediate "thinking" process prior to generating final answers, improving their reasoning capabilities on complex downstream tasks. However, the potential of LRMs as evaluators for machine translation (MT) quality remains underexplored. We provides the first systematic analysis of LRM-as-a-judge in MT evaluation. We identify key challenges, revealing LRMs require tailored evaluation materials, tend to "overthink" simpler instances and have issues with scoring mechanisms leading to overestimation. To address these, we propose to calibrate LRM thinking by training them on synthetic, human-like thinking trajectories. Our experiments on WMT24 Metrics benchmarks demonstrate that this approach largely reduces thinking budgets by ~35x while concurrently improving evaluation performance across different LRM scales from 7B to 32B (e.g., R1-Distill-Qwen-7B achieves a +8.7 correlation point improvement). These findings highlight the potential of efficiently calibrated LRMs to advance fine-grained automatic MT evaluation.
PDF41December 17, 2025