ChatPaper.aiChatPaper

検証不可能な大規模言語モデルにおけるルーブリックに基づく報酬モデリングのための交互強化学習

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

February 2, 2026
著者: Ran Xu, Tianci Liu, Zihan Dong, Tony You, Ilgee Hong, Carl Yang, Linjun Zhang, Tao Zhao, Haoyu Wang
cs.AI

要旨

従来の報酬モデルは通常、スカラー値を予測するが、創造的ライティングや非検証可能な指示追従タスクなど、多面的な応答品質を十分に捉えられていない。この課題を解決するため、本論文ではRubric-ARMを提案する。このフレームワークは、選好フィードバックを用いた強化学習により、評価基準生成器と評価器を共同で最適化する。静的な評価基準や分離された訓練パイプラインに依存する既存手法と異なり、本手法では評価基準の生成を、評価精度を最大化するために学習される潜在行動として扱う。同時更新における非定常性を緩和するため、交互最適化戦略を導入し、このスケジュールが訓練中の勾配分散を低減することを理論的に示す。大規模な実験により、Rubric-ARMが複数のベンチマークでベースラインを上回る最高精度を達成し、オフライン及びオンライン強化学習設定における下流のポリシーアライメントを大幅に改善することを実証する。
English
Standard reward models typically predict scalar scores that fail to capture the multifaceted nature of response quality in non-verifiable domains, such as creative writing or open-ended instruction following. To address this limitation, we propose Rubric-ARM, a framework that jointly optimizes a rubric generator and a judge using reinforcement learning from preference feedback. Unlike existing methods that rely on static rubrics or disjoint training pipelines, our approach treats rubric generation as a latent action learned to maximize judgment accuracy. We introduce an alternating optimization strategy to mitigate the non-stationarity of simultaneous updates, providing theoretical analysis that demonstrates how this schedule reduces gradient variance during training. Extensive experiments show that Rubric-ARM achieves state-of-the-art performance among baselines on multiple benchmarks and significantly improves downstream policy alignment in both offline and online reinforcement learning settings.
PDF132February 7, 2026