Think-RM: Habilitando el razonamiento de largo horizonte en modelos generativos de recompensa
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
May 22, 2025
Autores: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI
Resumen
El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés) se ha convertido en un paradigma poderoso para alinear modelos de lenguaje de gran escala con las preferencias humanas. Un desafío central en RLHF es la construcción de señales de recompensa precisas, donde los modelos de recompensa convencionales basados en Bradley-Terry (BT RMs) suelen ser sensibles al tamaño y cobertura de los datos, además de ser vulnerables a la manipulación de recompensas. Los modelos de recompensa generativos (GenRMs) ofrecen una alternativa más robusta al generar razonamientos en cadena (CoT) seguidos de una recompensa final. Sin embargo, los GenRMs existentes dependen de un razonamiento superficial y escalado vertical, lo que limita su capacidad para manejar tareas matizadas o complejas (por ejemplo, aquellas que requieren un razonamiento intensivo). Además, sus salidas de preferencias por pares son incompatibles con los algoritmos estándar de RLHF, que requieren señales de recompensa puntuales. En este trabajo, presentamos Think-RM, un marco de entrenamiento que permite un razonamiento de largo alcance en GenRMs al modelar un proceso de pensamiento interno. En lugar de producir razonamientos estructurados y proporcionados externamente, Think-RM genera trazas de razonamiento flexibles y autoguiadas que apoyan capacidades avanzadas como la autorreflexión, el razonamiento hipotético y el razonamiento divergente. Para fomentar estas habilidades de razonamiento, primero preparamos los modelos mediante ajuste fino supervisado (SFT) sobre datos de CoT extensos. Luego, mejoramos aún más las habilidades de largo alcance del modelo mediante aprendizaje por refuerzo basado en reglas (RL). Además, proponemos una nueva canalización de RLHF por pares que optimiza directamente las políticas utilizando recompensas de preferencias por pares, eliminando la necesidad de conversión de recompensas puntuales y permitiendo un uso más efectivo de las salidas de Think-RM. Los experimentos muestran que Think-RM logra resultados de vanguardia en RM-Bench, superando tanto a BT RM como a GenRM escalado verticalmente en un 8%. Cuando se combina con nuestra canalización de RLHF por pares, demuestra un rendimiento superior en políticas finales en comparación con los enfoques tradicionales.
English
Reinforcement learning from human feedback (RLHF) has become a powerful
post-training paradigm for aligning large language models with human
preferences. A core challenge in RLHF is constructing accurate reward signals,
where the conventional Bradley-Terry reward models (BT RMs) often suffer from
sensitivity to data size and coverage, as well as vulnerability to reward
hacking. Generative reward models (GenRMs) offer a more robust alternative by
generating chain-of-thought (CoT) rationales followed by a final reward.
However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting
their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks.
Moreover, their pairwise preference outputs are incompatible with standard RLHF
algorithms that require pointwise reward signals. In this work, we introduce
Think-RM, a training framework that enables long-horizon reasoning in GenRMs by
modeling an internal thinking process. Rather than producing structured,
externally provided rationales, Think-RM generates flexible, self-guided
reasoning traces that support advanced capabilities such as self-reflection,
hypothetical reasoning, and divergent reasoning. To elicit these reasoning
abilities, we first warm-up the models by supervised fine-tuning (SFT) over
long CoT data. We then further improve the model's long-horizon abilities by
rule-based reinforcement learning (RL). In addition, we propose a novel
pairwise RLHF pipeline that directly optimizes policies using pairwise
preference rewards, eliminating the need for pointwise reward conversion and
enabling more effective use of Think-RM outputs. Experiments show that Think-RM
achieves state-of-the-art results on RM-Bench, outperforming both BT RM and
vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline,
it demonstrates superior end-policy performance compared to traditional
approaches.Summary
AI-Generated Summary