Think-RM: Abilitare il Ragionamento a Lungo Termine nei Modelli Generativi di Ricompensa

Abstract

L'apprendimento per rinforzo basato sul feedback umano (RLHF) è diventato un potente paradigma di post-addestramento per allineare i grandi modelli linguistici alle preferenze umane. Una delle principali sfide nell'RLHF è la costruzione di segnali di ricompensa accurati, dove i tradizionali modelli di ricompensa Bradley-Terry (BT RM) spesso soffrono di sensibilità alla dimensione e alla copertura dei dati, nonché di vulnerabilità agli attacchi di manipolazione delle ricompense. I modelli di ricompensa generativi (GenRM) offrono un'alternativa più robusta generando razionalità a catena di pensiero (CoT) seguite da una ricompensa finale. Tuttavia, gli attuali GenRM si basano su ragionamenti superficiali e scalati verticalmente, limitando la loro capacità di gestire compiti sfumati o complessi (ad esempio, intensivi dal punto di vista del ragionamento). Inoltre, le loro uscite di preferenza a coppie sono incompatibili con gli algoritmi RLHF standard che richiedono segnali di ricompensa puntuali. In questo lavoro, introduciamo Think-RM, un framework di addestramento che abilita il ragionamento a lungo orizzonte nei GenRM modellando un processo di pensiero interno. Piuttosto che produrre razionalità strutturate e fornite esternamente, Think-RM genera tracce di ragionamento flessibili e autoguidate che supportano capacità avanzate come l'autoriflessione, il ragionamento ipotetico e il ragionamento divergente. Per stimolare queste abilità di ragionamento, inizialmente riscaldiamo i modelli mediante fine-tuning supervisionato (SFT) su dati CoT lunghi. Successivamente, miglioriamo ulteriormente le capacità a lungo orizzonte del modello attraverso l'apprendimento per rinforzo basato su regole (RL). Inoltre, proponiamo una nuova pipeline RLHF a coppie che ottimizza direttamente le politiche utilizzando ricompense di preferenza a coppie, eliminando la necessità di conversione delle ricompense puntuali e consentendo un uso più efficace delle uscite di Think-RM. Gli esperimenti dimostrano che Think-RM raggiunge risultati all'avanguardia su RM-Bench, superando sia BT RM che GenRM scalati verticalmente dell'8%. Quando combinato con la nostra pipeline RLHF a coppie, dimostra prestazioni superiori delle politiche finali rispetto agli approcci tradizionali.

English

Reinforcement learning from human feedback (RLHF) has become a powerful post-training paradigm for aligning large language models with human preferences. A core challenge in RLHF is constructing accurate reward signals, where the conventional Bradley-Terry reward models (BT RMs) often suffer from sensitivity to data size and coverage, as well as vulnerability to reward hacking. Generative reward models (GenRMs) offer a more robust alternative by generating chain-of-thought (CoT) rationales followed by a final reward. However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks. Moreover, their pairwise preference outputs are incompatible with standard RLHF algorithms that require pointwise reward signals. In this work, we introduce Think-RM, a training framework that enables long-horizon reasoning in GenRMs by modeling an internal thinking process. Rather than producing structured, externally provided rationales, Think-RM generates flexible, self-guided reasoning traces that support advanced capabilities such as self-reflection, hypothetical reasoning, and divergent reasoning. To elicit these reasoning abilities, we first warm-up the models by supervised fine-tuning (SFT) over long CoT data. We then further improve the model's long-horizon abilities by rule-based reinforcement learning (RL). In addition, we propose a novel pairwise RLHF pipeline that directly optimizes policies using pairwise preference rewards, eliminating the need for pointwise reward conversion and enabling more effective use of Think-RM outputs. Experiments show that Think-RM achieves state-of-the-art results on RM-Bench, outperforming both BT RM and vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline, it demonstrates superior end-policy performance compared to traditional approaches.

Think-RM: Abilitare il Ragionamento a Lungo Termine nei Modelli Generativi di Ricompensa

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

Abstract

Support