ハイブリッド強化学習:報酬が疎な場合、密である方が良い
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
October 8, 2025
著者: Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu
cs.AI
要旨
大規模言語モデル(LLM)の推論能力向上のためのポストトレーニングでは、検証可能な報酬、すなわち0-1の正解信号を提供する決定論的チェッカーに依存することが増えている。このような二値フィードバックは信頼性が高い一方で脆く、多くのタスクでは部分的に正しい回答や代替回答が存在し、検証器が十分に評価しない場合がある。その結果、全か無かの監督は学習を制限してしまう。報酬モデルはより豊かで連続的なフィードバックを提供し、検証器の補完的な監督信号として機能し得る。本論文では、検証器の信号と報酬モデルのスコアを構造的に統合する強化学習フレームワークであるHERO(Hybrid Ensemble Reward Optimization)を提案する。HEROは、層別正規化を用いて報酬モデルのスコアを検証器が定義するグループ内に制限し、正しさを保ちつつ品質の差異を洗練する。また、分散を考慮した重み付けにより、密な信号が最も重要な難しいプロンプトを強調する。多様な数学的推論ベンチマークにおいて、HEROは報酬モデルのみまたは検証器のみのベースラインを一貫して上回り、検証可能なタスクと検証が難しいタスクの両方で大きな改善を示した。我々の結果は、ハイブリッド報酬設計が検証器の安定性を維持しつつ、報酬モデルのニュアンスを活用して推論能力を向上させることを示している。
English
Post-training for reasoning of large language models (LLMs) increasingly
relies on verifiable rewards: deterministic checkers that provide 0-1
correctness signals. While reliable, such binary feedback is brittle--many
tasks admit partially correct or alternative answers that verifiers
under-credit, and the resulting all-or-nothing supervision limits learning.
Reward models offer richer, continuous feedback, which can serve as a
complementary supervisory signal to verifiers. We introduce HERO (Hybrid
Ensemble Reward Optimization), a reinforcement learning framework that
integrates verifier signals with reward-model scores in a structured way. HERO
employs stratified normalization to bound reward-model scores within
verifier-defined groups, preserving correctness while refining quality
distinctions, and variance-aware weighting to emphasize challenging prompts
where dense signals matter most. Across diverse mathematical reasoning
benchmarks, HERO consistently outperforms RM-only and verifier-only baselines,
with strong gains on both verifiable and hard-to-verify tasks. Our results show
that hybrid reward design retains the stability of verifiers while leveraging
the nuance of reward models to advance reasoning.