Le revers du RLHF : retour on-policy pour l'amélioration auto-supervisée du modèle de récompense

Résumé

Construire des modèles de récompense (RM) solides pour l’alignement des modèles de langage est freiné par le coût et la difficulté d’acquérir des données de préférences diverses et fiables issues d’annotations humaines ou de modèles juges. Cette difficulté s’aggrave considérablement à mesure que la politique évolue au-delà de l’entraînement statique du RM. C’est pourquoi nous proposons SAVE (Amélioration auto-supervisée du modèle de récompense via un retour d’information on-policy ancré sur la valeur), un cadre qui note les réponses on-policy comme retour d’information en utilisant la fonction de valeur pour l’entraînement on-policy du RM. SAVE convertit naturellement les réponses on-policy notées par la récompense en supervision, avec une tête de valeur spécifique au prompt servant d’ancre adaptative. Il calcule les avantages du RM et filtre les échantillons ambigus pour mettre à jour le RM via un objectif contrastif. L’efficacité de SAVE pour améliorer l’entraînement du RM est fortement validée par une évaluation empirique rigoureuse sur six références diverses. Il obtient des résultats supérieurs sur tous les ensembles de données tout en maintenant des améliorations cohérentes sur trois algorithmes d’apprentissage par renforcement (GRPO, RLOO, GSPO) et différents backbones de politique.

English

Building strong reward models (RMs) for language model alignment is bottlenecked by the cost and difficulty of acquiring diverse and reliable preference data from human annotation or judge models. It is dramatically worse as the policy evolves beyond the static RM training. Therefore, we propose SAVE (Self-supervised reward model improvement via Value-Anchored On-policy feedback), a framework that grades on-policy responses as feedback by using the value function for on-policy RM training. SAVE naturally converts the reward-graded on-policy responses into supervision with a prompt-specific value head as an adaptive anchor. It computes RM advantages and filters ambiguous samples to update the RM via a contrastive objective. The effectiveness of SAVE for enhancing RM training is strongly validated through rigorous empirical evaluation across six diverse benchmarks. It achieves outperforming results across all datasets while maintaining consistent improvements across three RL algorithms (GRPO, RLOO, GSPO) and different policy backbones.