ChatPaper.aiChatPaper

Think-RM: Habilitando Raciocínio de Longo Horizonte em Modelos de Recompensa Generativos

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

May 22, 2025
Autores: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI

Resumo

O aprendizado por reforço a partir de feedback humano (RLHF, na sigla em inglês) tornou-se um paradigma poderoso de pós-treinamento para alinhar grandes modelos de linguagem com as preferências humanas. Um desafio central no RLHF é a construção de sinais de recompensa precisos, onde os modelos de recompensa convencionais de Bradley-Terry (BT RMs) frequentemente sofrem com sensibilidade ao tamanho e cobertura dos dados, além de vulnerabilidade a ataques de manipulação de recompensa. Os modelos de recompensa generativos (GenRMs) oferecem uma alternativa mais robusta ao gerar cadeias de raciocínio (CoT) seguidas por uma recompensa final. No entanto, os GenRMs existentes dependem de raciocínios verticais e superficiais, limitando sua capacidade de lidar com tarefas complexas ou que exigem raciocínio detalhado. Além disso, suas saídas de preferência pareadas são incompatíveis com algoritmos padrão de RLHF, que exigem sinais de recompensa pontuais. Neste trabalho, introduzimos o Think-RM, uma estrutura de treinamento que habilita raciocínios de longo horizonte em GenRMs ao modelar um processo interno de pensamento. Em vez de produzir racionalizações estruturadas e externamente fornecidas, o Think-RM gera traços de raciocínio flexíveis e autoguiados que suportam capacidades avançadas, como autorreflexão, raciocínio hipotético e raciocínio divergente. Para elicitar essas habilidades de raciocínio, primeiro ajustamos os modelos por meio de fine-tuning supervisionado (SFT) sobre dados de CoT longos. Em seguida, aprimoramos ainda mais as habilidades de longo horizonte do modelo por meio de aprendizado por reforço baseado em regras (RL). Além disso, propomos um novo pipeline de RLHF pareado que otimiza diretamente as políticas usando recompensas de preferência pareadas, eliminando a necessidade de conversão de recompensas pontuais e permitindo um uso mais eficaz das saídas do Think-RM. Experimentos mostram que o Think-RM alcança resultados de ponta no RM-Bench, superando tanto o BT RM quanto o GenRM verticalmente escalado em 8%. Quando combinado com nosso pipeline de RLHF pareado, ele demonstra desempenho superior em políticas finais em comparação com abordagens tradicionais.
English
Reinforcement learning from human feedback (RLHF) has become a powerful post-training paradigm for aligning large language models with human preferences. A core challenge in RLHF is constructing accurate reward signals, where the conventional Bradley-Terry reward models (BT RMs) often suffer from sensitivity to data size and coverage, as well as vulnerability to reward hacking. Generative reward models (GenRMs) offer a more robust alternative by generating chain-of-thought (CoT) rationales followed by a final reward. However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks. Moreover, their pairwise preference outputs are incompatible with standard RLHF algorithms that require pointwise reward signals. In this work, we introduce Think-RM, a training framework that enables long-horizon reasoning in GenRMs by modeling an internal thinking process. Rather than producing structured, externally provided rationales, Think-RM generates flexible, self-guided reasoning traces that support advanced capabilities such as self-reflection, hypothetical reasoning, and divergent reasoning. To elicit these reasoning abilities, we first warm-up the models by supervised fine-tuning (SFT) over long CoT data. We then further improve the model's long-horizon abilities by rule-based reinforcement learning (RL). In addition, we propose a novel pairwise RLHF pipeline that directly optimizes policies using pairwise preference rewards, eliminating the need for pointwise reward conversion and enabling more effective use of Think-RM outputs. Experiments show that Think-RM achieves state-of-the-art results on RM-Bench, outperforming both BT RM and vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline, it demonstrates superior end-policy performance compared to traditional approaches.
PDF82December 14, 2025