ChatPaper.aiChatPaper

Think-RM: Habilitando el razonamiento de largo horizonte en modelos generativos de recompensa

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

May 22, 2025
Autores: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI

Resumen

El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés) se ha convertido en un paradigma poderoso para alinear modelos de lenguaje de gran escala con las preferencias humanas. Un desafío central en RLHF es la construcción de señales de recompensa precisas, donde los modelos de recompensa convencionales basados en Bradley-Terry (BT RMs) suelen ser sensibles al tamaño y cobertura de los datos, además de ser vulnerables a la manipulación de recompensas. Los modelos de recompensa generativos (GenRMs) ofrecen una alternativa más robusta al generar razonamientos en cadena (CoT) seguidos de una recompensa final. Sin embargo, los GenRMs existentes dependen de un razonamiento superficial y escalado vertical, lo que limita su capacidad para manejar tareas matizadas o complejas (por ejemplo, aquellas que requieren un razonamiento intensivo). Además, sus salidas de preferencias por pares son incompatibles con los algoritmos estándar de RLHF, que requieren señales de recompensa puntuales. En este trabajo, presentamos Think-RM, un marco de entrenamiento que permite un razonamiento de largo alcance en GenRMs al modelar un proceso de pensamiento interno. En lugar de producir razonamientos estructurados y proporcionados externamente, Think-RM genera trazas de razonamiento flexibles y autoguiadas que apoyan capacidades avanzadas como la autorreflexión, el razonamiento hipotético y el razonamiento divergente. Para fomentar estas habilidades de razonamiento, primero preparamos los modelos mediante ajuste fino supervisado (SFT) sobre datos de CoT extensos. Luego, mejoramos aún más las habilidades de largo alcance del modelo mediante aprendizaje por refuerzo basado en reglas (RL). Además, proponemos una nueva canalización de RLHF por pares que optimiza directamente las políticas utilizando recompensas de preferencias por pares, eliminando la necesidad de conversión de recompensas puntuales y permitiendo un uso más efectivo de las salidas de Think-RM. Los experimentos muestran que Think-RM logra resultados de vanguardia en RM-Bench, superando tanto a BT RM como a GenRM escalado verticalmente en un 8%. Cuando se combina con nuestra canalización de RLHF por pares, demuestra un rendimiento superior en políticas finales en comparación con los enfoques tradicionales.
English
Reinforcement learning from human feedback (RLHF) has become a powerful post-training paradigm for aligning large language models with human preferences. A core challenge in RLHF is constructing accurate reward signals, where the conventional Bradley-Terry reward models (BT RMs) often suffer from sensitivity to data size and coverage, as well as vulnerability to reward hacking. Generative reward models (GenRMs) offer a more robust alternative by generating chain-of-thought (CoT) rationales followed by a final reward. However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks. Moreover, their pairwise preference outputs are incompatible with standard RLHF algorithms that require pointwise reward signals. In this work, we introduce Think-RM, a training framework that enables long-horizon reasoning in GenRMs by modeling an internal thinking process. Rather than producing structured, externally provided rationales, Think-RM generates flexible, self-guided reasoning traces that support advanced capabilities such as self-reflection, hypothetical reasoning, and divergent reasoning. To elicit these reasoning abilities, we first warm-up the models by supervised fine-tuning (SFT) over long CoT data. We then further improve the model's long-horizon abilities by rule-based reinforcement learning (RL). In addition, we propose a novel pairwise RLHF pipeline that directly optimizes policies using pairwise preference rewards, eliminating the need for pointwise reward conversion and enabling more effective use of Think-RM outputs. Experiments show that Think-RM achieves state-of-the-art results on RM-Bench, outperforming both BT RM and vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline, it demonstrates superior end-policy performance compared to traditional approaches.

Summary

AI-Generated Summary

PDF42May 23, 2025