Raisonnement des LLM pour la traduction automatique : Génération de données synthétiques sur les tokens de réflexion
LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens
October 13, 2025
papers.authors: Armel Zebaze, Rachel Bawden, Benoît Sagot
cs.AI
papers.abstract
Les grands modèles de raisonnement (LRMs) ont ouvert de nouvelles possibilités en matière de résolution de problèmes, grâce à la conception d'un processus de pensée en langage naturel avant de répondre à une requête. Bien que leurs capacités soient bien connues dans les domaines des mathématiques et de la programmation, leur impact sur la tâche de traduction automatique (MT) reste peu exploré. Dans ce travail, nous examinons les avantages de la génération de tokens intermédiaires lors de l'exécution de la MT sur plusieurs paires de langues présentant différents niveaux de ressources et dans diverses configurations. Nous constatons que les "tokens de pensée" n'aident pas les LRMs à mieux performer en MT. Ce résultat se généralise aux modèles affinés pour raisonner avant de traduire en utilisant une chaîne de pensée (CoT) distillée, inspirée des pratiques des traducteurs humains. Plus précisément, l'affinement d'un modèle avec des explications CoT synthétiques détaillant comment traduire étape par étape ne surpasse pas l'affinement standard entrée-sortie. Cependant, la construction des tokens intermédiaires en combinant les résultats de stratégies de prompt modulaires spécifiques à la traduction entraîne des améliorations. Nos résultats soulignent que la contribution des tokens intermédiaires lors de l'affinement dépend fortement de la présence de tentatives de traduction en leur sein. Plus largement, nos résultats suggèrent qu'utiliser un enseignant pour affiner les traductions cibles ou pour enrichir les corpus parallèles est plus impactant que de distiller leurs explications CoT dans des modèles de MT "pensants".
English
Large reasoning models (LRMs) have led to new possibilities in terms of
problem-solving, through the devising of a natural language thought process
prior to answering a query. While their capabilities are well known across
mathematics and coding tasks, their impact on the task of machine translation
(MT) remains underexplored. In this work, we explore the benefits of the
generation of intermediate tokens when performing MT across multiple language
pairs of different levels of resourcedness and multiple setups. We find that
"thinking tokens" do not help LRMs better perform MT. This result generalizes
to models fine-tuned to reason before translating using distilled chain of
thought (CoT) inspired by human translators' practices. Specifically,
fine-tuning a model with synthetic CoT explanations detailing how to translate
step-by-step does not outperform standard input-output fine-tuning. However,
constructing the intermediate tokens by combining the outputs of modular
translation-specific prompting strategies results in improvements. Our findings
underscore that the contribution of intermediate tokens during fine-tuning
highly depends on the presence of translation attempts within them. More
broadly, our results suggest that using a teacher to refine target translations
or to expand parallel corpora is more impactful than distilling their CoT
explanations into "thinking" MT models.