ChatPaper.aiChatPaper

Think-RM : Permettre le raisonnement à long horizon dans les modèles de récompense génératifs

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

May 22, 2025
Auteurs: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI

Résumé

L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu un paradigme puissant pour aligner les grands modèles de langage avec les préférences humaines après leur entraînement. Un défi central dans le RLHF est la construction de signaux de récompense précis, où les modèles de récompense conventionnels de type Bradley-Terry (BT RM) souffrent souvent d'une sensibilité à la taille et à la couverture des données, ainsi que d'une vulnérabilité au piratage des récompenses. Les modèles de récompense génératifs (GenRM) offrent une alternative plus robuste en générant des rationales en chaîne de pensée (CoT) suivies d'une récompense finale. Cependant, les GenRM existants reposent sur un raisonnement superficiel et verticalement mis à l'échelle, limitant leur capacité à gérer des tâches nuancées ou complexes (par exemple, nécessitant un raisonnement approfondi). De plus, leurs sorties de préférences par paires sont incompatibles avec les algorithmes RLHF standard qui nécessitent des signaux de récompense ponctuels. Dans ce travail, nous introduisons Think-RM, un cadre d'entraînement qui permet un raisonnement à long horizon dans les GenRM en modélisant un processus de pensée interne. Plutôt que de produire des rationales structurées et fournies de l'extérieur, Think-RM génère des traces de raisonnement flexibles et autoguidées qui soutiennent des capacités avancées telles que l'autoréflexion, le raisonnement hypothétique et le raisonnement divergent. Pour susciter ces capacités de raisonnement, nous commençons par réchauffer les modèles par un ajustement fin supervisé (SFT) sur des données CoT longues. Nous améliorons ensuite les capacités à long horizon du modèle par un apprentissage par renforcement basé sur des règles (RL). En outre, nous proposons un nouveau pipeline RLHF par paires qui optimise directement les politiques en utilisant des récompenses de préférence par paires, éliminant ainsi le besoin de conversion en récompenses ponctuelles et permettant une utilisation plus efficace des sorties de Think-RM. Les expériences montrent que Think-RM atteint des résultats de pointe sur RM-Bench, surpassant à la fois BT RM et GenRM verticalement mis à l'échelle de 8 %. Lorsqu'il est combiné avec notre pipeline RLHF par paires, il démontre une performance de politique finale supérieure par rapport aux approches traditionnelles.
English
Reinforcement learning from human feedback (RLHF) has become a powerful post-training paradigm for aligning large language models with human preferences. A core challenge in RLHF is constructing accurate reward signals, where the conventional Bradley-Terry reward models (BT RMs) often suffer from sensitivity to data size and coverage, as well as vulnerability to reward hacking. Generative reward models (GenRMs) offer a more robust alternative by generating chain-of-thought (CoT) rationales followed by a final reward. However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks. Moreover, their pairwise preference outputs are incompatible with standard RLHF algorithms that require pointwise reward signals. In this work, we introduce Think-RM, a training framework that enables long-horizon reasoning in GenRMs by modeling an internal thinking process. Rather than producing structured, externally provided rationales, Think-RM generates flexible, self-guided reasoning traces that support advanced capabilities such as self-reflection, hypothetical reasoning, and divergent reasoning. To elicit these reasoning abilities, we first warm-up the models by supervised fine-tuning (SFT) over long CoT data. We then further improve the model's long-horizon abilities by rule-based reinforcement learning (RL). In addition, we propose a novel pairwise RLHF pipeline that directly optimizes policies using pairwise preference rewards, eliminating the need for pointwise reward conversion and enabling more effective use of Think-RM outputs. Experiments show that Think-RM achieves state-of-the-art results on RM-Bench, outperforming both BT RM and vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline, it demonstrates superior end-policy performance compared to traditional approaches.

Summary

AI-Generated Summary

PDF42May 23, 2025