Think-RM: Ermöglichung langfristiger Entscheidungsfindung in generativen Belohnungsmodellen
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
May 22, 2025
Autoren: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI
Zusammenfassung
Reinforcement Learning from Human Feedback (RLHF) hat sich zu einem leistungsstarken Paradigma für die Nachschulung großer Sprachmodelle entwickelt, um sie mit menschlichen Präferenzen in Einklang zu bringen. Eine zentrale Herausforderung bei RLHF besteht darin, präzise Belohnungssignale zu konstruieren, wobei konventionelle Bradley-Terry-Belohnungsmodelle (BT RMs) oft unter Empfindlichkeit gegenüber Datenmenge und -abdeckung sowie Anfälligkeit für Belohnungsmanipulation leiden. Generative Belohnungsmodelle (GenRMs) bieten eine robustere Alternative, indem sie Chain-of-Thought (CoT)-Begründungen gefolgt von einer finalen Belohnung generieren. Allerdings stützen sich bestehende GenRMs auf oberflächliches, vertikal skaliertes Denken, was ihre Fähigkeit einschränkt, nuancenreiche oder komplexe (z. B. argumentationsintensive) Aufgaben zu bewältigen. Darüber hinaus sind ihre paarweisen Präferenzausgaben nicht kompatibel mit standardmäßigen RLHF-Algorithmen, die punktuelle Belohnungssignale erfordern. In dieser Arbeit stellen wir Think-RM vor, ein Trainingsframework, das langfristiges Denken in GenRMs ermöglicht, indem es einen internen Denkprozess modelliert. Anstatt strukturierte, extern bereitgestellte Begründungen zu erzeugen, generiert Think-RM flexible, selbstgesteuerte Denkspuren, die fortgeschrittene Fähigkeiten wie Selbstreflexion, hypothetisches Denken und divergentes Denken unterstützen. Um diese Denkfähigkeiten zu fördern, wärmen wir die Modelle zunächst durch überwachtes Feintuning (SFT) über lange CoT-Daten auf. Anschließend verbessern wir die langfristigen Fähigkeiten des Modells durch regelbasiertes Reinforcement Learning (RL). Zusätzlich schlagen wir eine neuartige paarweise RLHF-Pipeline vor, die Richtlinien direkt unter Verwendung von paarweisen Präferenzbelohnungen optimiert, wodurch die Notwendigkeit einer punktuellen Belohnungsumwandlung entfällt und die Ausgaben von Think-RM effektiver genutzt werden können. Experimente zeigen, dass Think-RM auf dem RM-Bench state-of-the-art Ergebnisse erzielt und sowohl BT RM als auch vertikal skalierte GenRM um 8 % übertrifft. In Kombination mit unserer paarweisen RLHF-Pipeline zeigt es eine überlegene Endrichtlinienleistung im Vergleich zu traditionellen Ansätzen.
English
Reinforcement learning from human feedback (RLHF) has become a powerful
post-training paradigm for aligning large language models with human
preferences. A core challenge in RLHF is constructing accurate reward signals,
where the conventional Bradley-Terry reward models (BT RMs) often suffer from
sensitivity to data size and coverage, as well as vulnerability to reward
hacking. Generative reward models (GenRMs) offer a more robust alternative by
generating chain-of-thought (CoT) rationales followed by a final reward.
However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting
their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks.
Moreover, their pairwise preference outputs are incompatible with standard RLHF
algorithms that require pointwise reward signals. In this work, we introduce
Think-RM, a training framework that enables long-horizon reasoning in GenRMs by
modeling an internal thinking process. Rather than producing structured,
externally provided rationales, Think-RM generates flexible, self-guided
reasoning traces that support advanced capabilities such as self-reflection,
hypothetical reasoning, and divergent reasoning. To elicit these reasoning
abilities, we first warm-up the models by supervised fine-tuning (SFT) over
long CoT data. We then further improve the model's long-horizon abilities by
rule-based reinforcement learning (RL). In addition, we propose a novel
pairwise RLHF pipeline that directly optimizes policies using pairwise
preference rewards, eliminating the need for pointwise reward conversion and
enabling more effective use of Think-RM outputs. Experiments show that Think-RM
achieves state-of-the-art results on RM-Bench, outperforming both BT RM and
vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline,
it demonstrates superior end-policy performance compared to traditional
approaches.Summary
AI-Generated Summary