ChatPaper.aiChatPaper

Vortrainierte Policy-Diskriminatoren sind allgemeine Belohnungsmodelle.

Pre-Trained Policy Discriminators are General Reward Models

July 7, 2025
Autoren: Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
cs.AI

Zusammenfassung

Wir bieten eine neuartige Perspektive auf die Modellierung von Belohnungen, indem wir sie als einen Politikdiskriminator formulieren, der den Unterschied zwischen zwei Politiken quantifiziert, um ein Belohnungssignal zu erzeugen, das die Trainingspolitik in Richtung einer Zielpolitik mit gewünschten Verhaltensweisen lenkt. Basierend auf diesem konzeptionellen Einblick schlagen wir eine skalierbare Vorausbildungsmethode namens Policy Discriminative Learning (POLAR) vor, die ein Belohnungsmodell (RM) trainiert, um identische Politiken zu erkennen und unterschiedliche zu unterscheiden. Im Gegensatz zu traditionellen Methoden der Belohnungsmodellierung, die auf absoluten Präferenzen beruhen, erfasst POLAR den relativen Unterschied zwischen einer Politik und einer beliebigen Zielpolitik, was ein skalierbares, hochrangiges Optimierungsziel darstellt, das sich für die Modellierung generischer Rangbeziehungen eignet. Durch die Nutzung des POLAR-Vorausbildungsparadigmas präsentieren wir eine Reihe von RMs mit Parameterskalen von 1,8B bis 7B. Empirische Ergebnisse zeigen, dass POLAR traditionelle nicht vorausgebildete Methoden deutlich übertrifft und die Leistung der RMs erheblich verbessert. Beispielsweise konnte POLAR-7B die Präferenzgenauigkeit bei STEM-Aufgaben von 54,8 % auf 81,0 % und bei kreativen Schreibaufgaben von 57,9 % auf 85,5 % im Vergleich zu SOTA-Baselines steigern. POLAR zeigt auch robuste Generalisierungsfähigkeiten in RLHF durch Reinforcement Fine-tuning (RFT), liefert zuverlässige Belohnungssignale und verbessert die Politikleistung deutlich – LLaMa3.1-8B verbesserte sich im Durchschnitt von 47,36 % auf 56,33 % und Qwen2.5-32B von 64,49 % auf 70,47 % bei 20 Benchmarks. Darüber hinaus zeigen Skalierungsexperimente eine klare Potenzgesetz-Beziehung zwischen Rechenleistung und Performance, unterstützt durch lineare Korrelationskoeffizienten, die sich 0,99 annähern. Die beeindruckende Leistung, starke Generalisierung und Skalierungseigenschaften deuten darauf hin, dass POLAR eine vielversprechende Richtung für die Entwicklung allgemeiner und leistungsstarker Belohnungsmodelle ist.
English
We offer a novel perspective on reward modeling by formulating it as a policy discriminator, which quantifies the difference between two policies to generate a reward signal, guiding the training policy towards a target policy with desired behaviors. Based on this conceptual insight, we propose a scalable pre-training method named Policy Discriminative Learning (POLAR), which trains a reward model (RM) to discern identical policies and discriminate different ones. Unlike traditional reward modeling methods relying on absolute preferences, POLAR captures the relative difference between one policy and an arbitrary target policy, which is a scalable, high-level optimization objective suitable for modeling generic ranking relationships. Leveraging the POLAR pre-training paradigm, we present a series of RMs with parameter scales from 1.8B to 7B. Empirical results show that POLAR substantially outperforms traditional non-pre-trained methods, significantly enhancing RM performance. For instance, POLAR-7B could improve preference accuracy from 54.8% to 81.0% on STEM tasks and from 57.9% to 85.5% on creative writing tasks compared to SOTA baselines. POLAR also shows robust generalization capabilities in RLHF using Reinforcement Fine-tuning (RFT), providing reliable reward signals and markedly enhancing policy performance--improving LLaMa3.1-8B from an average of 47.36% to 56.33% and Qwen2.5-32B from 64.49% to 70.47% on 20 benchmarks. Moreover, scaling experiments reveal a clear power-law relationship between computation and performance, supported by linear correlation coefficients approaching 0.99. The impressive performance, strong generalization, and scaling properties suggest that POLAR is a promising direction for developing general and strong reward models.
PDF261July 8, 2025