Ragionamento degli LLM per la Traduzione Automatica: Generazione di Dati Sintetici sui Token di Pensiero

Abstract

I grandi modelli di ragionamento (LRM) hanno aperto nuove possibilità in termini di risoluzione di problemi, attraverso l'elaborazione di un processo di pensiero in linguaggio naturale prima di rispondere a una query. Sebbene le loro capacità siano ben note nei compiti di matematica e programmazione, il loro impatto sul compito di traduzione automatica (MT) rimane poco esplorato. In questo lavoro, esploriamo i benefici della generazione di token intermedi durante l'esecuzione della MT su più coppie di lingue con diversi livelli di risorse e in più configurazioni. Scopriamo che i "token di pensiero" non aiutano i LRM a eseguire meglio la MT. Questo risultato si generalizza ai modelli fine-tunati per ragionare prima di tradurre utilizzando una catena di pensiero (CoT) distillata ispirata alle pratiche dei traduttori umani. Nello specifico, il fine-tuning di un modello con spiegazioni CoT sintetiche che dettagliano come tradurre passo dopo passo non supera il fine-tuning standard input-output. Tuttavia, la costruzione dei token intermedi combinando gli output di strategie di prompting modulari specifiche per la traduzione porta a miglioramenti. I nostri risultati sottolineano che il contributo dei token intermedi durante il fine-tuning dipende fortemente dalla presenza di tentativi di traduzione al loro interno. Più in generale, i nostri risultati suggeriscono che utilizzare un insegnante per affinare le traduzioni target o per espandere i corpora paralleli è più impattante che distillare le loro spiegazioni CoT in modelli MT "pensanti".

English

Large reasoning models (LRMs) have led to new possibilities in terms of problem-solving, through the devising of a natural language thought process prior to answering a query. While their capabilities are well known across mathematics and coding tasks, their impact on the task of machine translation (MT) remains underexplored. In this work, we explore the benefits of the generation of intermediate tokens when performing MT across multiple language pairs of different levels of resourcedness and multiple setups. We find that "thinking tokens" do not help LRMs better perform MT. This result generalizes to models fine-tuned to reason before translating using distilled chain of thought (CoT) inspired by human translators' practices. Specifically, fine-tuning a model with synthetic CoT explanations detailing how to translate step-by-step does not outperform standard input-output fine-tuning. However, constructing the intermediate tokens by combining the outputs of modular translation-specific prompting strategies results in improvements. Our findings underscore that the contribution of intermediate tokens during fine-tuning highly depends on the presence of translation attempts within them. More broadly, our results suggest that using a teacher to refine target translations or to expand parallel corpora is more impactful than distilling their CoT explanations into "thinking" MT models.

Ragionamento degli LLM per la Traduzione Automatica: Generazione di Dati Sintetici sui Token di Pensiero

LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens

Abstract

Support