Mise à l'échelle au moment du test des modèles de raisonnement pour la traduction automatique
Test-Time Scaling of Reasoning Models for Machine Translation
October 7, 2025
papers.authors: Zihao Li, Shaoxiong Ji, Jörg Tiedemann
cs.AI
papers.abstract
La mise à l'échelle au moment du test (Test-time scaling, TTS) a amélioré les performances des modèles de raisonnement (Reasoning Models, RMs) sur diverses tâches telles que les mathématiques et la programmation, mais son efficacité dans le domaine de la traduction automatique (Machine Translation, MT) reste peu explorée. Cet article examine si l'augmentation du calcul au moment de l'inférence améliore la qualité de la traduction. Nous évaluons 12 RMs sur un ensemble diversifié de benchmarks de traduction automatique couvrant plusieurs domaines, en examinant trois scénarios : la traduction directe, l'extrapolation par raisonnement forcé et la post-édition. Nos résultats montrent que pour les RMs généralistes, le TTS offre des avantages limités et incohérents pour la traduction directe, avec une performance qui atteint rapidement un plateau. Cependant, l'efficacité du TTS est débloquée par un ajustement spécifique au domaine, qui aligne le processus de raisonnement du modèle avec les exigences de la tâche, conduisant à des améliorations constantes jusqu'à une profondeur de raisonnement optimale et auto-déterminée. Nous constatons également que forcer un modèle à raisonner au-delà de son point d'arrêt naturel dégrade systématiquement la qualité de la traduction. En revanche, le TTS s'avère très efficace dans un contexte de post-édition, transformant de manière fiable l'auto-correction en un processus bénéfique. Ces résultats indiquent que la valeur du calcul au moment de l'inférence en traduction automatique ne réside pas dans l'amélioration de la traduction en une seule passe avec des modèles généraux, mais dans des applications ciblées comme les workflows multi-étapes d'auto-correction et en conjonction avec des modèles spécialisés pour la tâche.
English
Test-time scaling (TTS) has enhanced the performance of Reasoning Models
(RMs) on various tasks such as math and coding, yet its efficacy in machine
translation (MT) remains underexplored. This paper investigates whether
increased inference-time computation improves translation quality. We evaluate
12 RMs across a diverse suite of MT benchmarks spanning multiple domains,
examining three scenarios: direct translation, forced-reasoning extrapolation,
and post-editing. Our findings show that for general-purpose RMs, TTS provides
limited and inconsistent benefits for direct translation, with performance
quickly plateauing. However, the effectiveness of TTS is unlocked by
domain-specific fine-tuning, which aligns a model's reasoning process with task
requirements, leading to consistent improvements up to an optimal,
self-determined reasoning depth. We also find that forcing a model to reason
beyond its natural stopping point consistently degrades translation quality. In
contrast, TTS proves highly effective in a post-editing context, reliably
turning self-correction into a beneficial process. These results indicate that
the value of inference-time computation in MT lies not in enhancing single-pass
translation with general models, but in targeted applications like multi-step,
self-correction workflows and in conjunction with task-specialized models.