LLMによる機械翻訳の推論:思考トークンを活用した合成データ生成
LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens
October 13, 2025
著者: Armel Zebaze, Rachel Bawden, Benoît Sagot
cs.AI
要旨
大規模推論モデル(LRM)は、クエリに答える前に自然言語の思考プロセスを考案することにより、問題解決の新たな可能性を開拓してきた。数学やコーディングタスクにおけるその能力は広く知られているが、機械翻訳(MT)タスクへの影響は未だ十分に検討されていない。本研究では、異なるリソースレベルの複数言語ペアおよび複数セットアップにおいて、中間トークンの生成がMTに与える利点を探る。その結果、「思考トークン」はLRMがMTをより良く行うことに寄与しないことが明らかとなった。この結果は、人間の翻訳者の実践に着想を得た蒸留連鎖思考(CoT)を用いて翻訳前に推論するようにファインチューニングされたモデルにも一般化される。具体的には、段階的な翻訳方法を詳細に説明する合成CoT説明を用いてモデルをファインチューニングしても、標準的な入力-出力ファインチューニングを上回る性能は得られなかった。しかし、モジュール化された翻訳固有のプロンプト戦略の出力を組み合わせて中間トークンを構築することで改善が認められた。我々の知見は、ファインチューニング中の中間トークンの寄与が、その中に翻訳の試みが含まれているかどうかに大きく依存することを強調している。より広く言えば、我々の結果は、ターゲット翻訳を洗練させたり並列コーパスを拡張するために教師モデルを使用することが、そのCoT説明を「思考する」MTモデルに蒸留することよりも効果的であることを示唆している。
English
Large reasoning models (LRMs) have led to new possibilities in terms of
problem-solving, through the devising of a natural language thought process
prior to answering a query. While their capabilities are well known across
mathematics and coding tasks, their impact on the task of machine translation
(MT) remains underexplored. In this work, we explore the benefits of the
generation of intermediate tokens when performing MT across multiple language
pairs of different levels of resourcedness and multiple setups. We find that
"thinking tokens" do not help LRMs better perform MT. This result generalizes
to models fine-tuned to reason before translating using distilled chain of
thought (CoT) inspired by human translators' practices. Specifically,
fine-tuning a model with synthetic CoT explanations detailing how to translate
step-by-step does not outperform standard input-output fine-tuning. However,
constructing the intermediate tokens by combining the outputs of modular
translation-specific prompting strategies results in improvements. Our findings
underscore that the contribution of intermediate tokens during fine-tuning
highly depends on the presence of translation attempts within them. More
broadly, our results suggest that using a teacher to refine target translations
or to expand parallel corpora is more impactful than distilling their CoT
explanations into "thinking" MT models.