ChatPaper.aiChatPaper

LLM-Reasoning für maschinelle Übersetzung: Synthetische Datengenerierung über Denk-Tokens

LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens

October 13, 2025
papers.authors: Armel Zebaze, Rachel Bawden, Benoît Sagot
cs.AI

papers.abstract

Große Reasoning-Modelle (LRMs) haben neue Möglichkeiten in Bezug auf die Problemlösung eröffnet, indem sie einen natürlichen Sprachdenkprozess entwickeln, bevor sie eine Anfrage beantworten. Während ihre Fähigkeiten in Mathematik- und Programmieraufgaben bekannt sind, bleibt ihre Auswirkung auf die Aufgabe der maschinellen Übersetzung (MT) weitgehend unerforscht. In dieser Arbeit untersuchen wir die Vorteile der Erzeugung von Zwischentoken bei der Durchführung von MT über mehrere Sprachpaare mit unterschiedlichem Ressourcenniveau und in verschiedenen Konfigurationen. Wir stellen fest, dass „Denk-Token“ LRMs nicht dabei helfen, MT besser durchzuführen. Dieses Ergebnis verallgemeinert sich auf Modelle, die feinabgestimmt wurden, um vor dem Übersetzen zu „reasonen“, wobei ein destillierter Chain of Thought (CoT) verwendet wird, der von den Praktiken menschlicher Übersetzer inspiriert ist. Insbesondere übertrifft das Feinabstimmen eines Modells mit synthetischen CoT-Erklärungen, die detailliert beschreiben, wie Schritt für Schritt übersetzt wird, das Standard-Feinabstimmen von Eingabe-Ausgabe-Paaren nicht. Die Konstruktion der Zwischentoken durch die Kombination der Ausgaben modularer, übersetzungsspezifischer Prompting-Strategien führt jedoch zu Verbesserungen. Unsere Ergebnisse unterstreichen, dass der Beitrag von Zwischentoken während des Feinabstimmens stark davon abhängt, ob Übersetzungsversuche in ihnen enthalten sind. Allgemeiner deuten unsere Ergebnisse darauf hin, dass die Verwendung eines Lehrers zur Verfeinerung von Zielübersetzungen oder zur Erweiterung paralleler Korpora wirkungsvoller ist, als deren CoT-Erklärungen in „denkende“ MT-Modelle zu destillieren.
English
Large reasoning models (LRMs) have led to new possibilities in terms of problem-solving, through the devising of a natural language thought process prior to answering a query. While their capabilities are well known across mathematics and coding tasks, their impact on the task of machine translation (MT) remains underexplored. In this work, we explore the benefits of the generation of intermediate tokens when performing MT across multiple language pairs of different levels of resourcedness and multiple setups. We find that "thinking tokens" do not help LRMs better perform MT. This result generalizes to models fine-tuned to reason before translating using distilled chain of thought (CoT) inspired by human translators' practices. Specifically, fine-tuning a model with synthetic CoT explanations detailing how to translate step-by-step does not outperform standard input-output fine-tuning. However, constructing the intermediate tokens by combining the outputs of modular translation-specific prompting strategies results in improvements. Our findings underscore that the contribution of intermediate tokens during fine-tuning highly depends on the presence of translation attempts within them. More broadly, our results suggest that using a teacher to refine target translations or to expand parallel corpora is more impactful than distilling their CoT explanations into "thinking" MT models.
PDF42October 15, 2025