Les discriminateurs de politiques pré-entraînés sont des modèles de récompense généraux.
Pre-Trained Policy Discriminators are General Reward Models
July 7, 2025
Auteurs: Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
cs.AI
Résumé
Nous proposons une nouvelle perspective sur la modélisation des récompenses en la formulant comme un discriminateur de politiques, qui quantifie la différence entre deux politiques pour générer un signal de récompense, guidant ainsi la politique d’apprentissage vers une politique cible présentant des comportements souhaités. Sur la base de cette intuition conceptuelle, nous proposons une méthode de pré-entraînement scalable nommée **Policy Discriminative Learning (POLAR)**, qui entraîne un modèle de récompense (RM) à distinguer les politiques identiques et à discriminer celles qui diffèrent. Contrairement aux méthodes traditionnelles de modélisation des récompenses qui reposent sur des préférences absolues, POLAR capture la différence relative entre une politique et une politique cible arbitraire, ce qui constitue un objectif d’optimisation de haut niveau et scalable, adapté à la modélisation de relations de classement génériques. En exploitant le paradigme de pré-entraînement POLAR, nous présentons une série de RM avec des échelles de paramètres allant de 1,8 milliard à 7 milliards. Les résultats empiriques montrent que POLAR surpasse largement les méthodes traditionnelles non pré-entraînées, améliorant significativement les performances des RM. Par exemple, POLAR-7B pourrait améliorer la précision des préférences de 54,8 % à 81,0 % sur les tâches STEM et de 57,9 % à 85,5 % sur les tâches de rédaction créative par rapport aux baselines SOTA. POLAR démontre également des capacités de généralisation robustes dans le cadre du RLHF utilisant le **Reinforcement Fine-tuning (RFT)**, fournissant des signaux de récompense fiables et améliorant notablement les performances des politiques—augmentant LLaMa3.1-8B d’une moyenne de 47,36 % à 56,33 % et Qwen2.5-32B de 64,49 % à 70,47 % sur 20 benchmarks. De plus, les expériences de mise à l’échelle révèlent une relation claire de loi de puissance entre le calcul et les performances, soutenue par des coefficients de corrélation linéaire approchant 0,99. Les performances impressionnantes, la forte généralisation et les propriétés de mise à l’échelle suggèrent que POLAR constitue une direction prometteuse pour le développement de modèles de récompense généraux et performants.
English
We offer a novel perspective on reward modeling by formulating it as a policy
discriminator, which quantifies the difference between two policies to generate
a reward signal, guiding the training policy towards a target policy with
desired behaviors. Based on this conceptual insight, we propose a scalable
pre-training method named Policy Discriminative Learning (POLAR), which trains
a reward model (RM) to discern identical policies and discriminate different
ones. Unlike traditional reward modeling methods relying on absolute
preferences, POLAR captures the relative difference between one policy and an
arbitrary target policy, which is a scalable, high-level optimization objective
suitable for modeling generic ranking relationships. Leveraging the POLAR
pre-training paradigm, we present a series of RMs with parameter scales from
1.8B to 7B. Empirical results show that POLAR substantially outperforms
traditional non-pre-trained methods, significantly enhancing RM performance.
For instance, POLAR-7B could improve preference accuracy from 54.8% to 81.0% on
STEM tasks and from 57.9% to 85.5% on creative writing tasks compared to SOTA
baselines. POLAR also shows robust generalization capabilities in RLHF using
Reinforcement Fine-tuning (RFT), providing reliable reward signals and markedly
enhancing policy performance--improving LLaMa3.1-8B from an average of 47.36%
to 56.33% and Qwen2.5-32B from 64.49% to 70.47% on 20 benchmarks. Moreover,
scaling experiments reveal a clear power-law relationship between computation
and performance, supported by linear correlation coefficients approaching 0.99.
The impressive performance, strong generalization, and scaling properties
suggest that POLAR is a promising direction for developing general and strong
reward models.