Escalonamento em Tempo de Teste de Modelos de Raciocínio para Tradução Automática

Resumo

O escalonamento em tempo de teste (TTS) tem aprimorado o desempenho de Modelos de Raciocínio (RMs) em diversas tarefas, como matemática e codificação, mas sua eficácia na tradução automática (MT) ainda é pouco explorada. Este artigo investiga se o aumento da computação no momento da inferência melhora a qualidade da tradução. Avaliamos 12 RMs em um conjunto diversificado de benchmarks de MT abrangendo múltiplos domínios, examinando três cenários: tradução direta, extrapolação com raciocínio forçado e pós-edição. Nossos resultados mostram que, para RMs de propósito geral, o TTS oferece benefícios limitados e inconsistentes para a tradução direta, com o desempenho rapidamente atingindo um platô. No entanto, a eficácia do TTS é desbloqueada pelo ajuste fino específico do domínio, que alinha o processo de raciocínio do modelo com os requisitos da tarefa, levando a melhorias consistentes até uma profundidade de raciocínio ótima e autodeterminada. Também descobrimos que forçar um modelo a raciocinar além de seu ponto de parada natural consistentemente degrada a qualidade da tradução. Em contraste, o TTS se mostra altamente eficaz em um contexto de pós-edição, transformando de forma confiável a autocorreção em um processo benéfico. Esses resultados indicam que o valor da computação em tempo de inferência na MT não está em aprimorar a tradução de passagem única com modelos gerais, mas em aplicações direcionadas, como fluxos de trabalho de autocorreção em múltiplas etapas e em conjunto com modelos especializados em tarefas.

English

Test-time scaling (TTS) has enhanced the performance of Reasoning Models (RMs) on various tasks such as math and coding, yet its efficacy in machine translation (MT) remains underexplored. This paper investigates whether increased inference-time computation improves translation quality. We evaluate 12 RMs across a diverse suite of MT benchmarks spanning multiple domains, examining three scenarios: direct translation, forced-reasoning extrapolation, and post-editing. Our findings show that for general-purpose RMs, TTS provides limited and inconsistent benefits for direct translation, with performance quickly plateauing. However, the effectiveness of TTS is unlocked by domain-specific fine-tuning, which aligns a model's reasoning process with task requirements, leading to consistent improvements up to an optimal, self-determined reasoning depth. We also find that forcing a model to reason beyond its natural stopping point consistently degrades translation quality. In contrast, TTS proves highly effective in a post-editing context, reliably turning self-correction into a beneficial process. These results indicate that the value of inference-time computation in MT lies not in enhancing single-pass translation with general models, but in targeted applications like multi-step, self-correction workflows and in conjunction with task-specialized models.

Escalonamento em Tempo de Teste de Modelos de Raciocínio para Tradução Automática

Test-Time Scaling of Reasoning Models for Machine Translation

Resumo

Support