ChatPaper.aiChatPaper

Think-RM: Abilitare il Ragionamento a Lungo Termine nei Modelli Generativi di Ricompensa

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

May 22, 2025
Autori: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI

Abstract

L'apprendimento per rinforzo basato sul feedback umano (RLHF) è diventato un potente paradigma di post-addestramento per allineare i grandi modelli linguistici alle preferenze umane. Una delle principali sfide nell'RLHF è la costruzione di segnali di ricompensa accurati, dove i tradizionali modelli di ricompensa Bradley-Terry (BT RM) spesso soffrono di sensibilità alla dimensione e alla copertura dei dati, nonché di vulnerabilità agli attacchi di manipolazione delle ricompense. I modelli di ricompensa generativi (GenRM) offrono un'alternativa più robusta generando razionalità a catena di pensiero (CoT) seguite da una ricompensa finale. Tuttavia, gli attuali GenRM si basano su ragionamenti superficiali e scalati verticalmente, limitando la loro capacità di gestire compiti sfumati o complessi (ad esempio, intensivi dal punto di vista del ragionamento). Inoltre, le loro uscite di preferenza a coppie sono incompatibili con gli algoritmi RLHF standard che richiedono segnali di ricompensa puntuali. In questo lavoro, introduciamo Think-RM, un framework di addestramento che abilita il ragionamento a lungo orizzonte nei GenRM modellando un processo di pensiero interno. Piuttosto che produrre razionalità strutturate e fornite esternamente, Think-RM genera tracce di ragionamento flessibili e autoguidate che supportano capacità avanzate come l'autoriflessione, il ragionamento ipotetico e il ragionamento divergente. Per stimolare queste abilità di ragionamento, inizialmente riscaldiamo i modelli mediante fine-tuning supervisionato (SFT) su dati CoT lunghi. Successivamente, miglioriamo ulteriormente le capacità a lungo orizzonte del modello attraverso l'apprendimento per rinforzo basato su regole (RL). Inoltre, proponiamo una nuova pipeline RLHF a coppie che ottimizza direttamente le politiche utilizzando ricompense di preferenza a coppie, eliminando la necessità di conversione delle ricompense puntuali e consentendo un uso più efficace delle uscite di Think-RM. Gli esperimenti dimostrano che Think-RM raggiunge risultati all'avanguardia su RM-Bench, superando sia BT RM che GenRM scalati verticalmente dell'8%. Quando combinato con la nostra pipeline RLHF a coppie, dimostra prestazioni superiori delle politiche finali rispetto agli approcci tradizionali.
English
Reinforcement learning from human feedback (RLHF) has become a powerful post-training paradigm for aligning large language models with human preferences. A core challenge in RLHF is constructing accurate reward signals, where the conventional Bradley-Terry reward models (BT RMs) often suffer from sensitivity to data size and coverage, as well as vulnerability to reward hacking. Generative reward models (GenRMs) offer a more robust alternative by generating chain-of-thought (CoT) rationales followed by a final reward. However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks. Moreover, their pairwise preference outputs are incompatible with standard RLHF algorithms that require pointwise reward signals. In this work, we introduce Think-RM, a training framework that enables long-horizon reasoning in GenRMs by modeling an internal thinking process. Rather than producing structured, externally provided rationales, Think-RM generates flexible, self-guided reasoning traces that support advanced capabilities such as self-reflection, hypothetical reasoning, and divergent reasoning. To elicit these reasoning abilities, we first warm-up the models by supervised fine-tuning (SFT) over long CoT data. We then further improve the model's long-horizon abilities by rule-based reinforcement learning (RL). In addition, we propose a novel pairwise RLHF pipeline that directly optimizes policies using pairwise preference rewards, eliminating the need for pointwise reward conversion and enabling more effective use of Think-RM outputs. Experiments show that Think-RM achieves state-of-the-art results on RM-Bench, outperforming both BT RM and vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline, it demonstrates superior end-policy performance compared to traditional approaches.
PDF82May 23, 2025