R1-T1: 推論学習によるLLMの翻訳能力の完全なインセンティブ設計
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning
February 27, 2025
著者: Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie
cs.AI
要旨
最近、DeepSeek-R1のような推論能力を強化した大規模言語モデル(LLM)の画期的な進展にもかかわらず、機械翻訳(MT)に推論時の推論を組み込むことは、まだ十分に探究されていない。人間の翻訳者が自然に行う構造化された多層的な思考連鎖(CoTs)をMTに適用する試みは、特定のMTサブタスク(例:文学翻訳)に特化した固定のCoTを設計するか、人間と整合しないCoTを合成し、壊滅的な忘却を引き起こしやすい教師あり微調整(SFT)に依存する方法に限られており、多様な翻訳シナリオへの適応性が制限されている。本論文では、R1-Translator(R1-T1)という新しいフレームワークを紹介する。これは、人間と整合する6つの共通パターンからなるCoTを用いた強化学習(RL)を通じて、一般的なMTにおける推論時の推論を実現するものである。我々のアプローチは、以下の3つの革新を先駆けている:(1)推論に基づく翻訳をMTサブタスクを超えて6つの言語と多様なタスク(例:法律/医療分野の適応、慣用句の解決)に拡張する;(2)文脈を意識した言い換えや逆翻訳のようなハイブリッドな人間の戦略を反映する6つの専門家が策定したCoTテンプレートを形式化する;(3)KL制約付き報酬を用いたRLを通じて、自己進化するCoTの発見と忘却防止適応を可能にする。実験結果は、Flores-101テストセットにおける21言語と80の翻訳方向で、特にトレーニングから見えない15言語において、翻訳性能の着実な向上を示しており、通常のSFTと比較して一般的な多言語能力が維持されていることを示している。
English
Despite recent breakthroughs in reasoning-enhanced large language models
(LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine
translation (MT), where human translators naturally employ structured,
multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored.
Existing methods either design a fixed CoT tailored for a specific MT sub-task
(e.g., literature translation), or rely on synthesizing CoTs unaligned with
humans and supervised fine-tuning (SFT) prone to catastrophic forgetting,
limiting their adaptability to diverse translation scenarios. This paper
introduces R1-Translator (R1-T1), a novel framework to achieve inference-time
reasoning for general MT via reinforcement learning (RL) with human-aligned
CoTs comprising six common patterns. Our approach pioneers three innovations:
(1) extending reasoning-based translation beyond MT sub-tasks to six languages
and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution);
(2) formalizing six expert-curated CoT templates that mirror hybrid human
strategies like context-aware paraphrasing and back translation; and (3)
enabling self-evolving CoT discovery and anti-forgetting adaptation through RL
with KL-constrained rewards. Experimental results indicate a steady translation
performance improvement in 21 languages and 80 translation directions on
Flores-101 test set, especially on the 15 languages unseen from training, with
its general multilingual abilities preserved compared with plain SFT.Summary
AI-Generated Summary