Raciocínio de LLM para Tradução Automática: Geração de Dados Sintéticos sobre Tokens de Pensamento
LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens
October 13, 2025
Autores: Armel Zebaze, Rachel Bawden, Benoît Sagot
cs.AI
Resumo
Modelos de raciocínio de grande escala (LRMs) abriram novas possibilidades em termos de resolução de problemas, através da criação de um processo de pensamento em linguagem natural antes de responder a uma consulta. Embora suas capacidades sejam bem conhecidas em tarefas de matemática e codificação, seu impacto na tarefa de tradução automática (MT) permanece pouco explorado. Neste trabalho, investigamos os benefícios da geração de tokens intermediários ao realizar MT em vários pares de idiomas com diferentes níveis de recursos e em múltiplas configurações. Descobrimos que "tokens de pensamento" não ajudam os LRMs a desempenhar melhor a MT. Esse resultado se generaliza para modelos ajustados para raciocinar antes de traduzir, utilizando uma cadeia de pensamento (CoT) destilada inspirada nas práticas de tradutores humanos. Especificamente, ajustar um modelo com explicações sintéticas de CoT detalhando como traduzir passo a passo não supera o ajuste padrão de entrada-saída. No entanto, construir os tokens intermediários combinando as saídas de estratégias modulares de prompt específicas para tradução resulta em melhorias. Nossas descobertas destacam que a contribuição dos tokens intermediários durante o ajuste depende fortemente da presença de tentativas de tradução neles. De forma mais ampla, nossos resultados sugerem que usar um professor para refinar traduções-alvo ou expandir corpora paralelos é mais impactante do que destilar suas explicações de CoT em modelos de MT "pensantes".
English
Large reasoning models (LRMs) have led to new possibilities in terms of
problem-solving, through the devising of a natural language thought process
prior to answering a query. While their capabilities are well known across
mathematics and coding tasks, their impact on the task of machine translation
(MT) remains underexplored. In this work, we explore the benefits of the
generation of intermediate tokens when performing MT across multiple language
pairs of different levels of resourcedness and multiple setups. We find that
"thinking tokens" do not help LRMs better perform MT. This result generalizes
to models fine-tuned to reason before translating using distilled chain of
thought (CoT) inspired by human translators' practices. Specifically,
fine-tuning a model with synthetic CoT explanations detailing how to translate
step-by-step does not outperform standard input-output fine-tuning. However,
constructing the intermediate tokens by combining the outputs of modular
translation-specific prompting strategies results in improvements. Our findings
underscore that the contribution of intermediate tokens during fine-tuning
highly depends on the presence of translation attempts within them. More
broadly, our results suggest that using a teacher to refine target translations
or to expand parallel corpora is more impactful than distilling their CoT
explanations into "thinking" MT models.