ExTrans: 事例強化型強化学習による多言語深層推論翻訳
ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning
May 19, 2025
著者: Jiaan Wang, Fandong Meng, Jie Zhou
cs.AI
要旨
近年、OpenAI-o1やDeepSeek-R1のような大規模推論モデル(LRM)の登場により、数学やコーディングなどの複雑な問題において驚異的な能力が示されています。いくつかの先駆的な研究では、LRMの成功をニューラル機械翻訳(MT)に応用しようと試みています。彼らは強化学習(RL)を用いて、深い推論能力を持つMTモデルを構築しようとしています。いくつかの進展は見られるものの、これらの試みは一般的に英語や中国語などの高リソース言語に焦点を当てており、他の言語での性能は不明瞭です。さらに、従来の研究における報酬モデリング手法は、MTにおける強化学習の潜在能力を十分に引き出していません。本研究ではまず、ポリシーMTモデルの翻訳結果を強力なLRM(DeepSeek-R1-671B)と比較し、その比較を定量化して報酬を提供する新しい報酬モデリング手法を設計します。実験結果は、この報酬モデリング手法の優位性を示しています。Qwen2.5-7B-Instructを基盤として、訓練されたモデルは文学翻訳において新たな最先端の性能を達成し、OpenAI-o1やDeepSeek-R1を含む強力なLRMを上回りました。さらに、我々の手法を11言語の多言語設定に拡張します。RLにおける軽量な報酬モデリングを慎重に設計することで、単一方向からの強力なMT能力を複数(90)の翻訳方向に簡単に転送し、印象的な多言語MT性能を達成することができます。
English
In recent years, the emergence of large reasoning models (LRMs), such as
OpenAI-o1 and DeepSeek-R1, has shown impressive capabilities in complex
problems, e.g., mathematics and coding. Some pioneering studies attempt to
bring the success of LRMs in neural machine translation (MT). They try to build
LRMs with deep reasoning MT ability via reinforcement learning (RL). Despite
some progress that has been made, these attempts generally focus on several
high-resource languages, e.g., English and Chinese, leaving the performance on
other languages unclear. Besides, the reward modeling methods in previous work
do not fully unleash the potential of reinforcement learning in MT. In this
work, we first design a new reward modeling method that compares the
translation results of the policy MT model with a strong LRM (i.e.,
DeepSeek-R1-671B), and quantifies the comparisons to provide rewards.
Experimental results demonstrate the superiority of the reward modeling method.
Using Qwen2.5-7B-Instruct as the backbone, the trained model achieves the new
state-of-the-art performance in literary translation, and outperforms strong
LRMs including OpenAI-o1 and DeepSeeK-R1. Furthermore, we extend our method to
the multilingual settings with 11 languages. With a carefully designed
lightweight reward modeling in RL, we can simply transfer the strong MT ability
from a single direction into multiple (i.e., 90) translation directions and
achieve impressive multilingual MT performance.Summary
AI-Generated Summary