機械翻訳のための推論モデルのテスト時スケーリング
Test-Time Scaling of Reasoning Models for Machine Translation
October 7, 2025
著者: Zihao Li, Shaoxiong Ji, Jörg Tiedemann
cs.AI
要旨
テストタイムスケーリング(TTS)は、数学やコーディングなどのさまざまなタスクにおいて推論モデル(RMs)の性能を向上させてきたが、機械翻訳(MT)における有効性はまだ十分に検証されていない。本論文では、推論時の計算量の増加が翻訳品質を向上させるかどうかを調査する。複数のドメインにわたる多様なMTベンチマークにおいて12のRMsを評価し、直接翻訳、強制推論外挿、およびポストエディットの3つのシナリオを検証する。その結果、汎用RMsにおいて、TTSは直接翻訳に対して限定的かつ一貫性のない効果しかもたらさず、性能はすぐに頭打ちになることがわかった。しかし、ドメイン固有のファインチューニングを行うことで、モデルの推論プロセスをタスクの要求に合わせることができ、最適な自己決定された推論深度まで一貫した改善が得られることが明らかになった。また、モデルに自然な停止点を超えて推論を強制すると、翻訳品質が一貫して低下することも確認された。一方、TTSはポストエディットの文脈では非常に有効であり、自己修正を有益なプロセスに変えることができた。これらの結果は、MTにおける推論時の計算量の価値は、汎用モデルによる単一パスの翻訳を強化することではなく、多段階の自己修正ワークフローやタスク特化モデルとの組み合わせといった特定のアプリケーションにあることを示唆している。
English
Test-time scaling (TTS) has enhanced the performance of Reasoning Models
(RMs) on various tasks such as math and coding, yet its efficacy in machine
translation (MT) remains underexplored. This paper investigates whether
increased inference-time computation improves translation quality. We evaluate
12 RMs across a diverse suite of MT benchmarks spanning multiple domains,
examining three scenarios: direct translation, forced-reasoning extrapolation,
and post-editing. Our findings show that for general-purpose RMs, TTS provides
limited and inconsistent benefits for direct translation, with performance
quickly plateauing. However, the effectiveness of TTS is unlocked by
domain-specific fine-tuning, which aligns a model's reasoning process with task
requirements, leading to consistent improvements up to an optimal,
self-determined reasoning depth. We also find that forcing a model to reason
beyond its natural stopping point consistently degrades translation quality. In
contrast, TTS proves highly effective in a post-editing context, reliably
turning self-correction into a beneficial process. These results indicate that
the value of inference-time computation in MT lies not in enhancing single-pass
translation with general models, but in targeted applications like multi-step,
self-correction workflows and in conjunction with task-specialized models.