ChatPaper.aiChatPaper

f-GRPOとその先へ:一般LLMアライメントのための発散度ベース強化学習アルゴリズム

f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

February 5, 2026
著者: Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song
cs.AI

要旨

近年の研究により、選好アライメント(PA)の目的関数は、アライメント済み(選択済み)と未アライメント(却下済み)の応答分布間のダイバージェンス推定量として機能することが示されている。本研究では、このダイバージェンスに基づく視点を、環境からの報酬のみが利用可能な検証可能な報酬を用いた強化学習(RLVR)など、一般的なアライメント設定に拡張する。この統一フレームワーク内で、我々はf-ダイバージェンスの変分表現に基づく、一般的なLLMアライメントのための、オン方策強化学習の一種であるf-グループ相対方策最適化(f-GRPO)と、オン/オフ方策ハイブリッド目的関数であるf-ハイブリッドアライメント損失(f-HAL)を提案する。これらの目的関数のクラスが、アライメント後に平均報酬を改善するという理論的保証を提供する。実験的には、RLVR(数学推論)タスクとPAタスク(安全性アライメント)の両方において本フレームワークを検証し、現在の手法と比較して優れた性能と柔軟性を実証する。
English
Recent research shows that Preference Alignment (PA) objectives act as divergence estimators between aligned (chosen) and unaligned (rejected) response distributions. In this work, we extend this divergence-based perspective to general alignment settings, such as reinforcement learning with verifiable rewards (RLVR), where only environmental rewards are available. Within this unified framework, we propose f-Group Relative Policy Optimization (f-GRPO), a class of on-policy reinforcement learning, and f-Hybrid Alignment Loss (f-HAL), a hybrid on/off policy objectives, for general LLM alignment based on variational representation of f-divergences. We provide theoretical guarantees that these classes of objectives improve the average reward after alignment. Empirically, we validate our framework on both RLVR (Math Reasoning) and PA tasks (Safety Alignment), demonstrating superior performance and flexibility compared to current methods.
PDF02February 11, 2026