Ragionamento degli LLM per la Traduzione Automatica: Generazione di Dati Sintetici sui Token di Pensiero
LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens
October 13, 2025
Autori: Armel Zebaze, Rachel Bawden, Benoît Sagot
cs.AI
Abstract
I grandi modelli di ragionamento (LRM) hanno aperto nuove possibilità in termini di risoluzione di problemi, attraverso l'elaborazione di un processo di pensiero in linguaggio naturale prima di rispondere a una query. Sebbene le loro capacità siano ben note nei compiti di matematica e programmazione, il loro impatto sul compito di traduzione automatica (MT) rimane poco esplorato. In questo lavoro, esploriamo i benefici della generazione di token intermedi durante l'esecuzione della MT su più coppie di lingue con diversi livelli di risorse e in più configurazioni. Scopriamo che i "token di pensiero" non aiutano i LRM a eseguire meglio la MT. Questo risultato si generalizza ai modelli fine-tunati per ragionare prima di tradurre utilizzando una catena di pensiero (CoT) distillata ispirata alle pratiche dei traduttori umani. Nello specifico, il fine-tuning di un modello con spiegazioni CoT sintetiche che dettagliano come tradurre passo dopo passo non supera il fine-tuning standard input-output. Tuttavia, la costruzione dei token intermedi combinando gli output di strategie di prompting modulari specifiche per la traduzione porta a miglioramenti. I nostri risultati sottolineano che il contributo dei token intermedi durante il fine-tuning dipende fortemente dalla presenza di tentativi di traduzione al loro interno. Più in generale, i nostri risultati suggeriscono che utilizzare un insegnante per affinare le traduzioni target o per espandere i corpora paralleli è più impattante che distillare le loro spiegazioni CoT in modelli MT "pensanti".
English
Large reasoning models (LRMs) have led to new possibilities in terms of
problem-solving, through the devising of a natural language thought process
prior to answering a query. While their capabilities are well known across
mathematics and coding tasks, their impact on the task of machine translation
(MT) remains underexplored. In this work, we explore the benefits of the
generation of intermediate tokens when performing MT across multiple language
pairs of different levels of resourcedness and multiple setups. We find that
"thinking tokens" do not help LRMs better perform MT. This result generalizes
to models fine-tuned to reason before translating using distilled chain of
thought (CoT) inspired by human translators' practices. Specifically,
fine-tuning a model with synthetic CoT explanations detailing how to translate
step-by-step does not outperform standard input-output fine-tuning. However,
constructing the intermediate tokens by combining the outputs of modular
translation-specific prompting strategies results in improvements. Our findings
underscore that the contribution of intermediate tokens during fine-tuning
highly depends on the presence of translation attempts within them. More
broadly, our results suggest that using a teacher to refine target translations
or to expand parallel corpora is more impactful than distilling their CoT
explanations into "thinking" MT models.