Testtijd Schaling van Redeneermodellen voor Machinaal Vertalen
Test-Time Scaling of Reasoning Models for Machine Translation
October 7, 2025
Auteurs: Zihao Li, Shaoxiong Ji, Jörg Tiedemann
cs.AI
Samenvatting
Test-time scaling (TTS) heeft de prestaties van Reasoning Models (RMs) verbeterd bij verschillende taken zoals wiskunde en programmeren, maar de effectiviteit ervan bij machinaal vertalen (MT) is nog onderbelicht. Dit artikel onderzoekt of een verhoogde rekentijd tijdens de inferentie de vertaalkwaliteit verbetert. We evalueren 12 RMs op een diverse set van MT-benchmarks die meerdere domeinen beslaan, waarbij we drie scenario's onderzoeken: directe vertaling, geforceerde redeneringsextrapolatie en post-editing. Onze bevindingen tonen aan dat TTS voor algemene RMs slechts beperkte en inconsistente voordelen biedt voor directe vertaling, waarbij de prestaties snel een plateau bereiken. De effectiviteit van TTS komt echter tot uiting door domeinspecifieke fine-tuning, wat het redeneerproces van een model afstemt op de taakeisen, wat leidt tot consistente verbeteringen tot een optimale, zelfbepaalde redeneerdiepte. We ontdekken ook dat het forceren van een model om verder te redeneren dan zijn natuurlijke stoppunt consequent de vertaalkwaliteit vermindert. Daarentegen blijkt TTS zeer effectief in een post-editing context, waarbij zelfcorrectie betrouwbaar wordt omgezet in een nuttig proces. Deze resultaten geven aan dat de waarde van rekentijd tijdens de inferentie bij MT niet ligt in het verbeteren van eenmalige vertalingen met algemene modellen, maar in gerichte toepassingen zoals meerstaps, zelfcorrigerende workflows en in combinatie met taakspecifieke modellen.
English
Test-time scaling (TTS) has enhanced the performance of Reasoning Models
(RMs) on various tasks such as math and coding, yet its efficacy in machine
translation (MT) remains underexplored. This paper investigates whether
increased inference-time computation improves translation quality. We evaluate
12 RMs across a diverse suite of MT benchmarks spanning multiple domains,
examining three scenarios: direct translation, forced-reasoning extrapolation,
and post-editing. Our findings show that for general-purpose RMs, TTS provides
limited and inconsistent benefits for direct translation, with performance
quickly plateauing. However, the effectiveness of TTS is unlocked by
domain-specific fine-tuning, which aligns a model's reasoning process with task
requirements, leading to consistent improvements up to an optimal,
self-determined reasoning depth. We also find that forcing a model to reason
beyond its natural stopping point consistently degrades translation quality. In
contrast, TTS proves highly effective in a post-editing context, reliably
turning self-correction into a beneficial process. These results indicate that
the value of inference-time computation in MT lies not in enhancing single-pass
translation with general models, but in targeted applications like multi-step,
self-correction workflows and in conjunction with task-specialized models.