すべてのルーブリックが等しく学習効果をもたらすわけではない:RLVRのためのポリシー認識型ルーブリック報酬
Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR
May 19, 2026
著者: Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He
cs.AI
要旨
検証可能な報酬を用いた強化学習は、正しさが自動的に確認できる場合に事後学習を極めて効果的にする。しかし、多くの重要なモデル行動は複数の質的基準を同時に満たすことを必要とする。ルーブリックベースの報酬は、プロンプト固有の基準を採点し、それらをスカラー報酬に集約することでこの設定に対処する。しかし、標準的な静的な集約は、人間が割り当てた基準の重要度と、それが最適化信号として現在持つ有用性とを混同する。我々は、この仮定がルーブリック強化学習において崩れることを示す。すなわち、多くの重要な基準は既に飽和しているか、現在到達不可能であり、ロールアウトを区別する基準は必ずしも人間の重みが最も大きい基準ではない。我々はPOW3Rを導入する。これは、ルーブリック目標として人間の重みとカテゴリバランスを保持しつつ、訓練中に基準レベルの報酬重みを適応させる、ポリシー認識型のルーブリック報酬フレームワークである。POW3Rはロールアウトレベルの対比を用いて、現在のポリシーの出力を分離する基準を強調し、基礎となる評価目標を変更せずにGRPO報酬をより情報豊かにする。マルチモーダルおよびテキストのみの設定をカバーする2つのデータセット上の3つのベースポリシーにおいて、POW3Rは30のベースポリシー・指標比較のうち24で勝利し、ルーブリック報酬を用いたバニラGRPOと比較して平均ルーブリック報酬と厳格な完了(すべての要求ルーブリック基準を満たす応答のプロンプト割合)の両方を改善し、2.5~4倍少ない訓練ステップで同じプラトーに達する。したがって、ルーブリック報酬は、最終回答において何が重要であるべきかと、現在のポリシーに何を教えることができるかを区別すべきである。
English
Reinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteria at once. Rubric-based rewards address this setting by grading prompt-specific criteria and aggregating them into a scalar reward. Yet standard static aggregations conflate a criterion's human-assigned importance with its current usefulness as an optimization signal. We show that this assumption breaks down in rubric RL: many important criteria are already saturated or currently unreachable, while criteria that distinguish rollouts are not necessarily those with the largest human weights. We introduce POW3R, a policy-aware rubric reward framework that preserves human weights and category balance as the rubric objective while adapting criterion-level reward weights during training. POW3R uses rollout-level contrast to emphasize criteria that currently separate the policy's outputs, making the GRPO reward more informative without changing the underlying evaluation target. Across three base policies on two datasets spanning multimodal and text-only settings, POW3R wins 24 of 30 base-policy/metric comparisons, improving both mean rubric reward and strict completion (the fraction of prompts whose response satisfies every required rubric criterion) over vanilla GRPO with rubric rewards, and reaches the same plateau in 2.5--4times fewer training steps. Rubric rewards should therefore distinguish what should matter in the final answer from what can teach the current policy.