ChatPaper.aiChatPaper

Vooraf getrainde beleidsdiscriminatoren zijn algemene beloningsmodellen.

Pre-Trained Policy Discriminators are General Reward Models

July 7, 2025
Auteurs: Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
cs.AI

Samenvatting

We bieden een nieuw perspectief op beloningsmodellering door het te formuleren als een beleidsdiscriminator, die het verschil tussen twee beleidsregels kwantificeert om een beloningssignaal te genereren, waardoor het trainingsbeleid wordt geleid naar een doelbeleid met gewenste gedragingen. Gebaseerd op dit conceptuele inzicht, stellen we een schaalbare voor-trainingsmethode voor genaamd Policy Discriminative Learning (POLAR), die een beloningsmodel (RM) traint om identieke beleidsregels te herkennen en verschillende te onderscheiden. In tegenstelling tot traditionele beloningsmodelleringsmethoden die afhankelijk zijn van absolute voorkeuren, vangt POLAR het relatieve verschil tussen één beleid en een willekeurig doelbeleid, wat een schaalbaar, hoogwaardig optimalisatiedoel is dat geschikt is voor het modelleren van generieke rangschikkingsrelaties. Gebruikmakend van het POLAR voor-trainingsparadigma, presenteren we een reeks RM's met parameterschalen van 1,8B tot 7B. Empirische resultaten tonen aan dat POLAR traditionele niet-voor-getrainde methoden aanzienlijk overtreft, waardoor de RM-prestaties aanzienlijk worden verbeterd. POLAR-7B kon bijvoorbeeld de voorkeursnauwkeurigheid verbeteren van 54,8% naar 81,0% op STEM-taken en van 57,9% naar 85,5% op creatieve schrijftaken in vergelijking met SOTA-baselines. POLAR toont ook robuuste generalisatiecapaciteiten in RLHF met behulp van Reinforcement Fine-tuning (RFT), wat betrouwbare beloningssignalen biedt en de beleidsprestaties aanzienlijk verbetert—LLaMa3.1-8B verbeterde van een gemiddelde van 47,36% naar 56,33% en Qwen2.5-32B van 64,49% naar 70,47% op 20 benchmarks. Bovendien onthullen schalingsexperimenten een duidelijke machtswetrelatie tussen rekenkracht en prestaties, ondersteund door lineaire correlatiecoëfficiënten die 0,99 naderen. De indrukwekkende prestaties, sterke generalisatie en schalingseigenschappen suggereren dat POLAR een veelbelovende richting is voor het ontwikkelen van algemene en sterke beloningsmodellen.
English
We offer a novel perspective on reward modeling by formulating it as a policy discriminator, which quantifies the difference between two policies to generate a reward signal, guiding the training policy towards a target policy with desired behaviors. Based on this conceptual insight, we propose a scalable pre-training method named Policy Discriminative Learning (POLAR), which trains a reward model (RM) to discern identical policies and discriminate different ones. Unlike traditional reward modeling methods relying on absolute preferences, POLAR captures the relative difference between one policy and an arbitrary target policy, which is a scalable, high-level optimization objective suitable for modeling generic ranking relationships. Leveraging the POLAR pre-training paradigm, we present a series of RMs with parameter scales from 1.8B to 7B. Empirical results show that POLAR substantially outperforms traditional non-pre-trained methods, significantly enhancing RM performance. For instance, POLAR-7B could improve preference accuracy from 54.8% to 81.0% on STEM tasks and from 57.9% to 85.5% on creative writing tasks compared to SOTA baselines. POLAR also shows robust generalization capabilities in RLHF using Reinforcement Fine-tuning (RFT), providing reliable reward signals and markedly enhancing policy performance--improving LLaMa3.1-8B from an average of 47.36% to 56.33% and Qwen2.5-32B from 64.49% to 70.47% on 20 benchmarks. Moreover, scaling experiments reveal a clear power-law relationship between computation and performance, supported by linear correlation coefficients approaching 0.99. The impressive performance, strong generalization, and scaling properties suggest that POLAR is a promising direction for developing general and strong reward models.
PDF391July 8, 2025