Think-RM: 生成型報酬モデルにおける長期的推論の実現
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
May 22, 2025
著者: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI
要旨
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせるための強力なポストトレーニング手法として注目を集めています。RLHFにおける核心的な課題は、正確な報酬信号を構築することであり、従来のBradley-Terry報酬モデル(BT RM)は、データサイズやカバレッジに対する感度や、報酬ハッキングへの脆弱性に悩まされることが多いです。生成型報酬モデル(GenRM)は、連鎖的思考(CoT)の論理を生成し、最終的な報酬を導くことで、より堅牢な代替手段を提供します。しかし、既存のGenRMは浅い垂直スケーリングされた推論に依存しており、微妙なニュアンスや複雑な(例えば、推論集約的な)タスクを扱う能力が制限されています。さらに、それらのペアワイズ選好出力は、ポイントワイズ報酬信号を必要とする標準的なRLHFアルゴリズムと互換性がありません。本研究では、内部思考プロセスをモデル化することで、GenRMに長期的な推論を可能にするトレーニングフレームワーク「Think-RM」を提案します。Think-RMは、構造化された外部提供の論理を生成するのではなく、自己反省、仮説推論、発散的推論などの高度な能力をサポートする柔軟な自己誘導型の推論トレースを生成します。これらの推論能力を引き出すために、まず長いCoTデータに対する教師ありファインチューニング(SFT)によってモデルをウォームアップします。その後、ルールベースの強化学習(RL)によってモデルの長期的な能力をさらに向上させます。さらに、ポイントワイズ報酬変換の必要性を排除し、Think-RMの出力をより効果的に活用するために、ペアワイズ選好報酬を直接使用してポリシーを最適化する新しいペアワイズRLHFパイプラインを提案します。実験結果は、Think-RMがRM-Benchにおいて最先端の結果を達成し、BT RMおよび垂直スケーリングされたGenRMを8%上回ることを示しています。提案するペアワイズRLHFパイプラインと組み合わせることで、従来のアプローチと比較して優れたエンドポリシーパフォーマンスを実証しています。
English
Reinforcement learning from human feedback (RLHF) has become a powerful
post-training paradigm for aligning large language models with human
preferences. A core challenge in RLHF is constructing accurate reward signals,
where the conventional Bradley-Terry reward models (BT RMs) often suffer from
sensitivity to data size and coverage, as well as vulnerability to reward
hacking. Generative reward models (GenRMs) offer a more robust alternative by
generating chain-of-thought (CoT) rationales followed by a final reward.
However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting
their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks.
Moreover, their pairwise preference outputs are incompatible with standard RLHF
algorithms that require pointwise reward signals. In this work, we introduce
Think-RM, a training framework that enables long-horizon reasoning in GenRMs by
modeling an internal thinking process. Rather than producing structured,
externally provided rationales, Think-RM generates flexible, self-guided
reasoning traces that support advanced capabilities such as self-reflection,
hypothetical reasoning, and divergent reasoning. To elicit these reasoning
abilities, we first warm-up the models by supervised fine-tuning (SFT) over
long CoT data. We then further improve the model's long-horizon abilities by
rule-based reinforcement learning (RL). In addition, we propose a novel
pairwise RLHF pipeline that directly optimizes policies using pairwise
preference rewards, eliminating the need for pointwise reward conversion and
enabling more effective use of Think-RM outputs. Experiments show that Think-RM
achieves state-of-the-art results on RM-Bench, outperforming both BT RM and
vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline,
it demonstrates superior end-policy performance compared to traditional
approaches.Summary
AI-Generated Summary