Escalonamento em Tempo de Teste de Modelos de Raciocínio para Tradução Automática
Test-Time Scaling of Reasoning Models for Machine Translation
October 7, 2025
Autores: Zihao Li, Shaoxiong Ji, Jörg Tiedemann
cs.AI
Resumo
O escalonamento em tempo de teste (TTS) tem aprimorado o desempenho de Modelos de Raciocínio (RMs) em diversas tarefas, como matemática e codificação, mas sua eficácia na tradução automática (MT) ainda é pouco explorada. Este artigo investiga se o aumento da computação no momento da inferência melhora a qualidade da tradução. Avaliamos 12 RMs em um conjunto diversificado de benchmarks de MT abrangendo múltiplos domínios, examinando três cenários: tradução direta, extrapolação com raciocínio forçado e pós-edição. Nossos resultados mostram que, para RMs de propósito geral, o TTS oferece benefícios limitados e inconsistentes para a tradução direta, com o desempenho rapidamente atingindo um platô. No entanto, a eficácia do TTS é desbloqueada pelo ajuste fino específico do domínio, que alinha o processo de raciocínio do modelo com os requisitos da tarefa, levando a melhorias consistentes até uma profundidade de raciocínio ótima e autodeterminada. Também descobrimos que forçar um modelo a raciocinar além de seu ponto de parada natural consistentemente degrada a qualidade da tradução. Em contraste, o TTS se mostra altamente eficaz em um contexto de pós-edição, transformando de forma confiável a autocorreção em um processo benéfico. Esses resultados indicam que o valor da computação em tempo de inferência na MT não está em aprimorar a tradução de passagem única com modelos gerais, mas em aplicações direcionadas, como fluxos de trabalho de autocorreção em múltiplas etapas e em conjunto com modelos especializados em tarefas.
English
Test-time scaling (TTS) has enhanced the performance of Reasoning Models
(RMs) on various tasks such as math and coding, yet its efficacy in machine
translation (MT) remains underexplored. This paper investigates whether
increased inference-time computation improves translation quality. We evaluate
12 RMs across a diverse suite of MT benchmarks spanning multiple domains,
examining three scenarios: direct translation, forced-reasoning extrapolation,
and post-editing. Our findings show that for general-purpose RMs, TTS provides
limited and inconsistent benefits for direct translation, with performance
quickly plateauing. However, the effectiveness of TTS is unlocked by
domain-specific fine-tuning, which aligns a model's reasoning process with task
requirements, leading to consistent improvements up to an optimal,
self-determined reasoning depth. We also find that forcing a model to reason
beyond its natural stopping point consistently degrades translation quality. In
contrast, TTS proves highly effective in a post-editing context, reliably
turning self-correction into a beneficial process. These results indicate that
the value of inference-time computation in MT lies not in enhancing single-pass
translation with general models, but in targeted applications like multi-step,
self-correction workflows and in conjunction with task-specialized models.