기계 번역을 위한 추론 모델의 테스트 타임 스케일링
Test-Time Scaling of Reasoning Models for Machine Translation
October 7, 2025
저자: Zihao Li, Shaoxiong Ji, Jörg Tiedemann
cs.AI
초록
테스트 시간 스케일링(TTS)은 수학 및 코딩과 같은 다양한 작업에서 추론 모델(RMs)의 성능을 향상시켜 왔지만, 기계 번역(MT)에서의 효용성은 아직 충분히 탐구되지 않았습니다. 본 논문은 추론 시간 계산량 증가가 번역 품질을 개선하는지 여부를 조사합니다. 우리는 다중 도메인에 걸친 다양한 MT 벤치마크에서 12개의 RM을 평가하며, 직접 번역, 강제 추론 외삽, 그리고 사후 편집이라는 세 가지 시나리오를 검토합니다. 연구 결과에 따르면, 범용 RM의 경우 TTS는 직접 번역에 대해 제한적이고 일관되지 않은 이점만 제공하며, 성능이 빠르게 정체되는 것으로 나타났습니다. 그러나 도메인 특화 미세 조정을 통해 TTS의 효과가 발휘될 수 있으며, 이는 모델의 추론 과정을 작업 요구 사항에 맞추어 일관된 개선을 이끌어내고, 최적의 자체 결정된 추론 깊이까지 성능을 향상시킵니다. 또한 모델이 자연스러운 중단 지점을 넘어서도록 강제하는 경우 번역 품질이 일관되게 저하되는 것으로 나타났습니다. 반면, TTS는 사후 편집 맥락에서 매우 효과적이며, 자기 수정을 유익한 과정으로 전환하는 데 안정적으로 기여합니다. 이러한 결과는 MT에서 추론 시간 계산의 가치가 일반 모델을 사용한 단일 패스 번역 개선에 있는 것이 아니라, 다단계 자기 수정 워크플로우와 같은 표적 응용 프로그램 및 작업 특화 모델과의 결합에 있음을 시사합니다.
English
Test-time scaling (TTS) has enhanced the performance of Reasoning Models
(RMs) on various tasks such as math and coding, yet its efficacy in machine
translation (MT) remains underexplored. This paper investigates whether
increased inference-time computation improves translation quality. We evaluate
12 RMs across a diverse suite of MT benchmarks spanning multiple domains,
examining three scenarios: direct translation, forced-reasoning extrapolation,
and post-editing. Our findings show that for general-purpose RMs, TTS provides
limited and inconsistent benefits for direct translation, with performance
quickly plateauing. However, the effectiveness of TTS is unlocked by
domain-specific fine-tuning, which aligns a model's reasoning process with task
requirements, leading to consistent improvements up to an optimal,
self-determined reasoning depth. We also find that forcing a model to reason
beyond its natural stopping point consistently degrades translation quality. In
contrast, TTS proves highly effective in a post-editing context, reliably
turning self-correction into a beneficial process. These results indicate that
the value of inference-time computation in MT lies not in enhancing single-pass
translation with general models, but in targeted applications like multi-step,
self-correction workflows and in conjunction with task-specialized models.