RM-R1: Modelagem de Recompensas como Raciocínio

Resumo

A modelagem de recompensas é essencial para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas, especialmente por meio do aprendizado por reforço com feedback humano (RLHF). Para fornecer sinais de recompensa precisos, um modelo de recompensa (RM) deve estimular o pensamento profundo e realizar raciocínios interpretáveis antes de atribuir uma pontuação ou um julgamento. No entanto, os RMs existentes ou produzem pontuações escalares opacas ou geram diretamente a previsão de uma resposta preferida, dificultando a integração de críticas em linguagem natural e, portanto, carecendo de interpretabilidade. Inspirados pelos avanços recentes em cadeias longas de pensamento (CoT) em tarefas que exigem raciocínio, hipotetizamos e validamos que a integração de capacidades de raciocínio na modelagem de recompensas melhora significativamente a interpretabilidade e o desempenho do RM. Neste trabalho, introduzimos uma nova classe de modelos de recompensa generativos -- Modelos de Recompensa com Raciocínio (ReasRMs) -- que formulam a modelagem de recompensas como uma tarefa de raciocínio. Propomos um pipeline de treinamento orientado para o raciocínio e treinamos uma família de ReasRMs, o RM-R1. O treinamento consiste em duas etapas principais: (1) destilação de cadeias de raciocínio de alta qualidade e (2) aprendizado por reforço com recompensas verificáveis. O RM-R1 melhora as execuções de LLMs ao gerar automaticamente traços de raciocínio ou rubricas específicas para conversas e avaliar respostas candidatas com base neles. Empiricamente, nossos modelos alcançam desempenho de ponta ou próximo ao estado da arte em modelos de recompensa generativos em diversos benchmarks abrangentes, superando modelos de código aberto muito maiores (por exemplo, Llama3.1-405B) e proprietários (por exemplo, GPT-4o) em até 13,8%. Além do desempenho final, realizamos uma análise empírica detalhada para entender os ingredientes-chave do treinamento bem-sucedido de ReasRMs. Para facilitar pesquisas futuras, disponibilizamos seis modelos ReasRM, juntamente com código e dados, em https://github.com/RM-R1-UIUC/RM-R1.

English

Reward modeling is essential for aligning large language models (LLMs) with human preferences, especially through reinforcement learning from human feedback (RLHF). To provide accurate reward signals, a reward model (RM) should stimulate deep thinking and conduct interpretable reasoning before assigning a score or a judgment. However, existing RMs either produce opaque scalar scores or directly generate the prediction of a preferred answer, making them struggle to integrate natural language critiques, thus lacking interpretability. Inspired by recent advances of long chain-of-thought (CoT) on reasoning-intensive tasks, we hypothesize and validate that integrating reasoning capabilities into reward modeling significantly enhances RM's interpretability and performance. In this work, we introduce a new class of generative reward models -- Reasoning Reward Models (ReasRMs) -- which formulate reward modeling as a reasoning task. We propose a reasoning-oriented training pipeline and train a family of ReasRMs, RM-R1. The training consists of two key stages: (1) distillation of high-quality reasoning chains and (2) reinforcement learning with verifiable rewards. RM-R1 improves LLM rollouts by self-generating reasoning traces or chat-specific rubrics and evaluating candidate responses against them. Empirically, our models achieve state-of-the-art or near state-of-the-art performance of generative RMs across multiple comprehensive reward model benchmarks, outperforming much larger open-weight models (e.g., Llama3.1-405B) and proprietary ones (e.g., GPT-4o) by up to 13.8%. Beyond final performance, we perform thorough empirical analysis to understand the key ingredients of successful ReasRM training. To facilitate future research, we release six ReasRM models along with code and data at https://github.com/RM-R1-UIUC/RM-R1.

RM-R1: Modelagem de Recompensas como Raciocínio

RM-R1: Reward Modeling as Reasoning

Resumo

Support