Think-RM : Permettre le raisonnement à long horizon dans les modèles de récompense génératifs
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
May 22, 2025
Auteurs: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI
Résumé
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu un paradigme puissant pour aligner les grands modèles de langage avec les préférences humaines après leur entraînement. Un défi central dans le RLHF est la construction de signaux de récompense précis, où les modèles de récompense conventionnels de type Bradley-Terry (BT RM) souffrent souvent d'une sensibilité à la taille et à la couverture des données, ainsi que d'une vulnérabilité au piratage des récompenses. Les modèles de récompense génératifs (GenRM) offrent une alternative plus robuste en générant des rationales en chaîne de pensée (CoT) suivies d'une récompense finale. Cependant, les GenRM existants reposent sur un raisonnement superficiel et verticalement mis à l'échelle, limitant leur capacité à gérer des tâches nuancées ou complexes (par exemple, nécessitant un raisonnement approfondi). De plus, leurs sorties de préférences par paires sont incompatibles avec les algorithmes RLHF standard qui nécessitent des signaux de récompense ponctuels. Dans ce travail, nous introduisons Think-RM, un cadre d'entraînement qui permet un raisonnement à long horizon dans les GenRM en modélisant un processus de pensée interne. Plutôt que de produire des rationales structurées et fournies de l'extérieur, Think-RM génère des traces de raisonnement flexibles et autoguidées qui soutiennent des capacités avancées telles que l'autoréflexion, le raisonnement hypothétique et le raisonnement divergent. Pour susciter ces capacités de raisonnement, nous commençons par réchauffer les modèles par un ajustement fin supervisé (SFT) sur des données CoT longues. Nous améliorons ensuite les capacités à long horizon du modèle par un apprentissage par renforcement basé sur des règles (RL). En outre, nous proposons un nouveau pipeline RLHF par paires qui optimise directement les politiques en utilisant des récompenses de préférence par paires, éliminant ainsi le besoin de conversion en récompenses ponctuelles et permettant une utilisation plus efficace des sorties de Think-RM. Les expériences montrent que Think-RM atteint des résultats de pointe sur RM-Bench, surpassant à la fois BT RM et GenRM verticalement mis à l'échelle de 8 %. Lorsqu'il est combiné avec notre pipeline RLHF par paires, il démontre une performance de politique finale supérieure par rapport aux approches traditionnelles.
English
Reinforcement learning from human feedback (RLHF) has become a powerful
post-training paradigm for aligning large language models with human
preferences. A core challenge in RLHF is constructing accurate reward signals,
where the conventional Bradley-Terry reward models (BT RMs) often suffer from
sensitivity to data size and coverage, as well as vulnerability to reward
hacking. Generative reward models (GenRMs) offer a more robust alternative by
generating chain-of-thought (CoT) rationales followed by a final reward.
However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting
their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks.
Moreover, their pairwise preference outputs are incompatible with standard RLHF
algorithms that require pointwise reward signals. In this work, we introduce
Think-RM, a training framework that enables long-horizon reasoning in GenRMs by
modeling an internal thinking process. Rather than producing structured,
externally provided rationales, Think-RM generates flexible, self-guided
reasoning traces that support advanced capabilities such as self-reflection,
hypothetical reasoning, and divergent reasoning. To elicit these reasoning
abilities, we first warm-up the models by supervised fine-tuning (SFT) over
long CoT data. We then further improve the model's long-horizon abilities by
rule-based reinforcement learning (RL). In addition, we propose a novel
pairwise RLHF pipeline that directly optimizes policies using pairwise
preference rewards, eliminating the need for pointwise reward conversion and
enabling more effective use of Think-RM outputs. Experiments show that Think-RM
achieves state-of-the-art results on RM-Bench, outperforming both BT RM and
vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline,
it demonstrates superior end-policy performance compared to traditional
approaches.Summary
AI-Generated Summary