報酬推論モデル
Reward Reasoning Model
May 20, 2025
著者: Jiaxin Guo, Zewen Chi, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei
cs.AI
要旨
報酬モデルは、大規模言語モデルを人間の期待に沿った出力へと導く上で重要な役割を果たします。しかし、テスト時の計算資源を効果的に活用して報酬モデルの性能を向上させるという課題が未解決のまま残っています。本研究では、最終的な報酬を生成する前に慎重な推論プロセスを実行するように特別に設計されたReward Reasoning Models(RRMs)を提案します。RRMsは、連鎖的思考推論(chain-of-thought reasoning)を通じて、適切な報酬が即座に明らかでない複雑なクエリに対して、追加のテスト時計算資源を活用します。RRMsを開発するために、明示的な推論トレースを訓練データとして必要とせず、自己進化型の報酬推論能力を育む強化学習フレームワークを実装しました。実験結果は、RRMsが多様な領域における報酬モデリングのベンチマークで優れた性能を達成することを示しています。特に、RRMsがテスト時の計算資源を適応的に活用して報酬の精度をさらに向上させることができることを実証しました。事前学習済みの報酬推論モデルは、https://huggingface.co/Reward-Reasoning で公開されています。
English
Reward models play a critical role in guiding large language models toward
outputs that align with human expectations. However, an open challenge remains
in effectively utilizing test-time compute to enhance reward model performance.
In this work, we introduce Reward Reasoning Models (RRMs), which are
specifically designed to execute a deliberate reasoning process before
generating final rewards. Through chain-of-thought reasoning, RRMs leverage
additional test-time compute for complex queries where appropriate rewards are
not immediately apparent. To develop RRMs, we implement a reinforcement
learning framework that fosters self-evolved reward reasoning capabilities
without requiring explicit reasoning traces as training data. Experimental
results demonstrate that RRMs achieve superior performance on reward modeling
benchmarks across diverse domains. Notably, we show that RRMs can adaptively
exploit test-time compute to further improve reward accuracy. The pretrained
reward reasoning models are available at
https://huggingface.co/Reward-Reasoning.Summary
AI-Generated Summary