Think-RM: Abilitare il Ragionamento a Lungo Termine nei Modelli Generativi di Ricompensa
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
May 22, 2025
Autori: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI
Abstract
L'apprendimento per rinforzo basato sul feedback umano (RLHF) è diventato un potente paradigma di post-addestramento per allineare i grandi modelli linguistici alle preferenze umane. Una delle principali sfide nell'RLHF è la costruzione di segnali di ricompensa accurati, dove i tradizionali modelli di ricompensa Bradley-Terry (BT RM) spesso soffrono di sensibilità alla dimensione e alla copertura dei dati, nonché di vulnerabilità agli attacchi di manipolazione delle ricompense. I modelli di ricompensa generativi (GenRM) offrono un'alternativa più robusta generando razionalità a catena di pensiero (CoT) seguite da una ricompensa finale. Tuttavia, gli attuali GenRM si basano su ragionamenti superficiali e scalati verticalmente, limitando la loro capacità di gestire compiti sfumati o complessi (ad esempio, intensivi dal punto di vista del ragionamento). Inoltre, le loro uscite di preferenza a coppie sono incompatibili con gli algoritmi RLHF standard che richiedono segnali di ricompensa puntuali. In questo lavoro, introduciamo Think-RM, un framework di addestramento che abilita il ragionamento a lungo orizzonte nei GenRM modellando un processo di pensiero interno. Piuttosto che produrre razionalità strutturate e fornite esternamente, Think-RM genera tracce di ragionamento flessibili e autoguidate che supportano capacità avanzate come l'autoriflessione, il ragionamento ipotetico e il ragionamento divergente. Per stimolare queste abilità di ragionamento, inizialmente riscaldiamo i modelli mediante fine-tuning supervisionato (SFT) su dati CoT lunghi. Successivamente, miglioriamo ulteriormente le capacità a lungo orizzonte del modello attraverso l'apprendimento per rinforzo basato su regole (RL). Inoltre, proponiamo una nuova pipeline RLHF a coppie che ottimizza direttamente le politiche utilizzando ricompense di preferenza a coppie, eliminando la necessità di conversione delle ricompense puntuali e consentendo un uso più efficace delle uscite di Think-RM. Gli esperimenti dimostrano che Think-RM raggiunge risultati all'avanguardia su RM-Bench, superando sia BT RM che GenRM scalati verticalmente dell'8%. Quando combinato con la nostra pipeline RLHF a coppie, dimostra prestazioni superiori delle politiche finali rispetto agli approcci tradizionali.
English
Reinforcement learning from human feedback (RLHF) has become a powerful
post-training paradigm for aligning large language models with human
preferences. A core challenge in RLHF is constructing accurate reward signals,
where the conventional Bradley-Terry reward models (BT RMs) often suffer from
sensitivity to data size and coverage, as well as vulnerability to reward
hacking. Generative reward models (GenRMs) offer a more robust alternative by
generating chain-of-thought (CoT) rationales followed by a final reward.
However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting
their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks.
Moreover, their pairwise preference outputs are incompatible with standard RLHF
algorithms that require pointwise reward signals. In this work, we introduce
Think-RM, a training framework that enables long-horizon reasoning in GenRMs by
modeling an internal thinking process. Rather than producing structured,
externally provided rationales, Think-RM generates flexible, self-guided
reasoning traces that support advanced capabilities such as self-reflection,
hypothetical reasoning, and divergent reasoning. To elicit these reasoning
abilities, we first warm-up the models by supervised fine-tuning (SFT) over
long CoT data. We then further improve the model's long-horizon abilities by
rule-based reinforcement learning (RL). In addition, we propose a novel
pairwise RLHF pipeline that directly optimizes policies using pairwise
preference rewards, eliminating the need for pointwise reward conversion and
enabling more effective use of Think-RM outputs. Experiments show that Think-RM
achieves state-of-the-art results on RM-Bench, outperforming both BT RM and
vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline,
it demonstrates superior end-policy performance compared to traditional
approaches.