Think-RM: Het mogelijk maken van langetermijnredenering in generatieve beloningsmodellen
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
May 22, 2025
Auteurs: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI
Samenvatting
Reinforcement learning from human feedback (RLHF) is uitgegroeid tot een krachtig paradigma voor het afstemmen van grote taalmodellen op menselijke voorkeuren na de training. Een kernuitdaging bij RLHF is het construeren van nauwkeurige beloningssignalen, waarbij conventionele Bradley-Terry beloningsmodellen (BT RMs) vaak gevoelig zijn voor de omvang en dekking van de data, evenals kwetsbaar voor beloningsmanipulatie. Generatieve beloningsmodellen (GenRMs) bieden een robuuster alternatief door chain-of-thought (CoT) redeneringen te genereren, gevolgd door een uiteindelijke beloning. Bestaande GenRMs vertrouwen echter op oppervlakkige, verticaal geschaalde redeneringen, wat hun vermogen beperkt om genuanceerde of complexe (bijvoorbeeld redeneringsintensieve) taken aan te kunnen. Bovendien zijn hun gepaarde voorkeursuitvoer incompatibel met standaard RLHF-algoritmen die puntgewijze beloningssignalen vereisen. In dit werk introduceren we Think-RM, een trainingsframework dat langetermijnredeneringen in GenRMs mogelijk maakt door een intern denkproces te modelleren. In plaats van gestructureerde, extern aangeleverde redeneringen te produceren, genereert Think-RM flexibele, zelfgestuurde redeneringstrajecten die geavanceerde mogelijkheden ondersteunen, zoals zelfreflectie, hypothetisch redeneren en divergent redeneren. Om deze redeneervaardigheden te stimuleren, warmen we eerst de modellen op door supervised fine-tuning (SFT) over lange CoT-data. Vervolgens verbeteren we de langetermijnvaardigheden van het model verder door regelgebaseerd reinforcement learning (RL). Daarnaast stellen we een nieuwe gepaarde RLHF-pijplijn voor die beleid direct optimaliseert met behulp van gepaarde voorkeursbeloningen, waardoor de noodzaak voor puntgewijze beloningsconversie wordt geëlimineerd en het gebruik van Think-RM-uitvoer effectiever wordt. Experimenten tonen aan dat Think-RM state-of-the-art resultaten behaalt op RM-Bench, waarbij het zowel BT RM als verticaal geschaalde GenRM met 8% overtreft. In combinatie met onze gepaarde RLHF-pijplijn demonstreert het superieure eindbeleidsprestaties vergeleken met traditionele benaderingen.
English
Reinforcement learning from human feedback (RLHF) has become a powerful
post-training paradigm for aligning large language models with human
preferences. A core challenge in RLHF is constructing accurate reward signals,
where the conventional Bradley-Terry reward models (BT RMs) often suffer from
sensitivity to data size and coverage, as well as vulnerability to reward
hacking. Generative reward models (GenRMs) offer a more robust alternative by
generating chain-of-thought (CoT) rationales followed by a final reward.
However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting
their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks.
Moreover, their pairwise preference outputs are incompatible with standard RLHF
algorithms that require pointwise reward signals. In this work, we introduce
Think-RM, a training framework that enables long-horizon reasoning in GenRMs by
modeling an internal thinking process. Rather than producing structured,
externally provided rationales, Think-RM generates flexible, self-guided
reasoning traces that support advanced capabilities such as self-reflection,
hypothetical reasoning, and divergent reasoning. To elicit these reasoning
abilities, we first warm-up the models by supervised fine-tuning (SFT) over
long CoT data. We then further improve the model's long-horizon abilities by
rule-based reinforcement learning (RL). In addition, we propose a novel
pairwise RLHF pipeline that directly optimizes policies using pairwise
preference rewards, eliminating the need for pointwise reward conversion and
enabling more effective use of Think-RM outputs. Experiments show that Think-RM
achieves state-of-the-art results on RM-Bench, outperforming both BT RM and
vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline,
it demonstrates superior end-policy performance compared to traditional
approaches.