O Outro Lado do RLHF: Feedback On-Policy para Melhoria Auto-Supervisionada do Modelo de Recompensa
The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement
May 29, 2026
Autores: Xiaobo Wang, Tong Wu, Min Tang, Jiaqi Li, Qi Liu, Zilong Zheng
cs.AI
Resumo
A construção de modelos de recompensa (RMs) robustos para o alinhamento de modelos de linguagem é limitada pelo custo e pela dificuldade de obter dados de preferência diversos e confiáveis, seja por anotação humana ou por modelos avaliadores. Essa limitação se agrava drasticamente à medida que a política evolui além do treinamento estático do RM. Assim, propomos o SAVE (Self-supervised reward model improvement via Value-Anchored On-policy feedback), uma estrutura que avalia respostas on-policy como feedback, utilizando a função de valor para o treinamento on-policy do RM. O SAVE converte naturalmente as respostas on-policy graduadas por recompensa em supervisão, empregando uma cabeça de valor específica ao prompt como uma âncora adaptativa. Ele calcula as vantagens do RM e filtra amostras ambíguas para atualizar o RM por meio de um objetivo contrastivo. A eficácia do SAVE na melhoria do treinamento do RM é fortemente validada por uma avaliação empírica rigorosa em seis conjuntos de referência diversos. Ele alcança resultados superiores em todos os conjuntos de dados, mantendo melhorias consistentes em três algoritmos de RL (GRPO, RLOO, GSPO) e diferentes backbones de política.
English
Building strong reward models (RMs) for language model alignment is bottlenecked by the cost and difficulty of acquiring diverse and reliable preference data from human annotation or judge models. It is dramatically worse as the policy evolves beyond the static RM training. Therefore, we propose SAVE (Self-supervised reward model improvement via Value-Anchored On-policy feedback), a framework that grades on-policy responses as feedback by using the value function for on-policy RM training. SAVE naturally converts the reward-graded on-policy responses into supervision with a prompt-specific value head as an adaptive anchor. It computes RM advantages and filters ambiguous samples to update the RM via a contrastive objective. The effectiveness of SAVE for enhancing RM training is strongly validated through rigorous empirical evaluation across six diverse benchmarks. It achieves outperforming results across all datasets while maintaining consistent improvements across three RL algorithms (GRPO, RLOO, GSPO) and different policy backbones.