Razonamiento de LLM para Traducción Automática: Generación de Datos Sintéticos sobre Tokens de Pensamiento
LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens
October 13, 2025
Autores: Armel Zebaze, Rachel Bawden, Benoît Sagot
cs.AI
Resumen
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) han abierto nuevas posibilidades en términos de resolución de problemas, mediante la creación de un proceso de pensamiento en lenguaje natural antes de responder a una consulta. Si bien sus capacidades son bien conocidas en tareas de matemáticas y codificación, su impacto en la tarea de traducción automática (MT, por sus siglas en inglés) sigue siendo poco explorado. En este trabajo, exploramos los beneficios de la generación de tokens intermedios al realizar MT en múltiples pares de idiomas con diferentes niveles de recursos y en diversas configuraciones. Descubrimos que los "tokens de pensamiento" no ayudan a los LRMs a desempeñarse mejor en MT. Este resultado se generaliza a modelos ajustados para razonar antes de traducir utilizando una cadena de pensamiento (CoT, por sus siglas en inglés) destilada, inspirada en las prácticas de los traductores humanos. Específicamente, ajustar un modelo con explicaciones sintéticas de CoT que detallan cómo traducir paso a paso no supera el ajuste estándar de entrada-salida. Sin embargo, construir los tokens intermedios combinando los resultados de estrategias modulares de indicación específicas para la traducción sí resulta en mejoras. Nuestros hallazgos subrayan que la contribución de los tokens intermedios durante el ajuste depende en gran medida de la presencia de intentos de traducción en ellos. En términos más generales, nuestros resultados sugieren que utilizar un profesor para refinar traducciones objetivo o para expandir corpus paralelos es más impactante que destilar sus explicaciones de CoT en modelos de MT "pensantes".
English
Large reasoning models (LRMs) have led to new possibilities in terms of
problem-solving, through the devising of a natural language thought process
prior to answering a query. While their capabilities are well known across
mathematics and coding tasks, their impact on the task of machine translation
(MT) remains underexplored. In this work, we explore the benefits of the
generation of intermediate tokens when performing MT across multiple language
pairs of different levels of resourcedness and multiple setups. We find that
"thinking tokens" do not help LRMs better perform MT. This result generalizes
to models fine-tuned to reason before translating using distilled chain of
thought (CoT) inspired by human translators' practices. Specifically,
fine-tuning a model with synthetic CoT explanations detailing how to translate
step-by-step does not outperform standard input-output fine-tuning. However,
constructing the intermediate tokens by combining the outputs of modular
translation-specific prompting strategies results in improvements. Our findings
underscore that the contribution of intermediate tokens during fine-tuning
highly depends on the presence of translation attempts within them. More
broadly, our results suggest that using a teacher to refine target translations
or to expand parallel corpora is more impactful than distilling their CoT
explanations into "thinking" MT models.