El otro lado de RLHF: Retroalimentación on-policy para la mejora autosupervisada del modelo de recompensa
The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement
May 29, 2026
Autores: Xiaobo Wang, Tong Wu, Min Tang, Jiaqi Li, Qi Liu, Zilong Zheng
cs.AI
Resumen
La construcción de modelos de recompensa (RM) robustos para la alineación de modelos de lenguaje está limitada por el costo y la dificultad de obtener datos de preferencia diversos y fiables mediante anotación humana o modelos jueces. Esta situación empeora drásticamente a medida que la política evoluciona más allá del entrenamiento estático del RM. Por ello, proponemos SAVE (Mejora auto-supervisada de modelos de recompensa mediante retroalimentación on-policy anclada en el valor), un marco que califica respuestas on-policy como retroalimentación utilizando la función de valor para el entrenamiento on-policy del RM. SAVE convierte de forma natural las respuestas on-policy calificadas por recompensa en supervisión, empleando una cabeza de valor específica del prompt como ancla adaptativa. Calcula las ventajas del RM y filtra muestras ambiguas para actualizar el RM mediante un objetivo contrastivo. La efectividad de SAVE para mejorar el entrenamiento del RM queda firmemente validada a través de una rigurosa evaluación empírica en seis referencias diversas. Logra resultados sobresalientes en todos los conjuntos de datos, manteniendo mejoras consistentes en tres algoritmos de RL (GRPO, RLOO, GSPO) y diferentes backbones de políticas.
English
Building strong reward models (RMs) for language model alignment is bottlenecked by the cost and difficulty of acquiring diverse and reliable preference data from human annotation or judge models. It is dramatically worse as the policy evolves beyond the static RM training. Therefore, we propose SAVE (Self-supervised reward model improvement via Value-Anchored On-policy feedback), a framework that grades on-policy responses as feedback by using the value function for on-policy RM training. SAVE naturally converts the reward-graded on-policy responses into supervision with a prompt-specific value head as an adaptive anchor. It computes RM advantages and filters ambiguous samples to update the RM via a contrastive objective. The effectiveness of SAVE for enhancing RM training is strongly validated through rigorous empirical evaluation across six diverse benchmarks. It achieves outperforming results across all datasets while maintaining consistent improvements across three RL algorithms (GRPO, RLOO, GSPO) and different policy backbones.