穴を埋める:多言語翻訳における強化学習の報酬ハッキング問題への対処
Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation
March 13, 2026
著者: Yifeng Liu, Siqi Ouyang, Yatish Hosmane Revanasiddappa, Lei Li
cs.AI
要旨
大規模言語モデル(LLM)は高資源言語ペアにおける機械翻訳で顕著な能力を発揮する一方、低資源翻訳における性能は依然として遅れを取っている。既存の学習後手法は高品質な並列データに大きく依存しているが、こうしたデータは低資源言語では不足しているか、利用できないことが多い。本論文では、単言語テキストのみを用いてLLMの低資源言語翻訳能力を向上させつつ、高資源言語での性能を維持する強化学習手法WALARを提案する。我々の核心的な洞察は、既存のソースベース多言語品質推定モデルにおける失敗モード(あるいは「穴」)の観察に基づく。これらの品質推定モデルを用いた強化学習は、こうした穴を増幅させる傾向があり、多言語LLMの性能低下を招く。我々は、WALARの報酬設計においてこの穴を緩和するため、単語アライメントと言語アライメントを含む技術を開発した。WALARを用いて101言語の翻訳をサポートするLLMを継続学習した。実験結果では、Flores-101データセットにおける1400の言語方向において、我々の新モデルが最も強力なオープンソース多言語LLMの一つであるLLaMAXを大きく上回る性能を示した。
English
Large Language Models (LLMs) have demonstrated remarkable capability in machine translation on high-resource language pairs, yet their performance on low-resource translation still lags behind. Existing post-training methods rely heavily on high-quality parallel data, which are often scarce or unavailable for low-resource languages. In this paper, we introduce WALAR, a reinforcement training method using only monolingual text to elevate LLMs' translation capabilities on massive low-resource languages while retaining their performance on high-resource languages. Our key insight is based on the observation of failure modes (or "holes") in existing source-based multilingual quality estimation (QE) models. Reinforcement learning (RL) using these QE models tends to amplify such holes, resulting in poorer multilingual LLMs. We develop techniques including word alignment and language alignment to mitigate such holes in WALAR's reward for RL training. We continually trained an LLM supporting translation of 101 languages using WALAR. The experiments show that our new model outperforms LLaMAX, one of the strongest open-source multilingual LLMs by a large margin on 1400 language directions on Flores-101 dataset.