ChatPaper.aiChatPaper

I Discriminator di Politiche Pre-Addestrati sono Modelli di Ricompensa Generali

Pre-Trained Policy Discriminators are General Reward Models

July 7, 2025
Autori: Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
cs.AI

Abstract

Offriamo una nuova prospettiva sulla modellazione delle ricompense formulandola come un discriminatore di politiche, che quantifica la differenza tra due politiche per generare un segnale di ricompensa, guidando la politica di addestramento verso una politica target con comportamenti desiderati. Basandoci su questa intuizione concettuale, proponiamo un metodo scalabile di pre-addestramento denominato Policy Discriminative Learning (POLAR), che addestra un modello di ricompensa (RM) a discernere politiche identiche e discriminare quelle diverse. A differenza dei tradizionali metodi di modellazione delle ricompense che si basano su preferenze assolute, POLAR cattura la differenza relativa tra una politica e una politica target arbitraria, rappresentando un obiettivo di ottimizzazione scalabile e di alto livello adatto per modellare relazioni di ranking generiche. Sfruttando il paradigma di pre-addestramento POLAR, presentiamo una serie di RM con scale di parametri da 1,8B a 7B. I risultati empirici dimostrano che POLAR supera sostanzialmente i metodi tradizionali non pre-addestrati, migliorando significativamente le prestazioni degli RM. Ad esempio, POLAR-7B potrebbe migliorare l'accuratezza delle preferenze dal 54,8% all'81,0% nei compiti STEM e dal 57,9% all'85,5% nei compiti di scrittura creativa rispetto ai baseline SOTA. POLAR mostra anche robuste capacità di generalizzazione nell'RLHF utilizzando il Reinforcement Fine-tuning (RFT), fornendo segnali di ricompensa affidabili e migliorando notevolmente le prestazioni delle politiche—migliorando LLaMa3.1-8B da una media del 47,36% al 56,33% e Qwen2.5-32B dal 64,49% al 70,47% su 20 benchmark. Inoltre, esperimenti di scalabilità rivelano una chiara relazione di legge di potenza tra calcolo e prestazioni, supportata da coefficienti di correlazione lineare che si avvicinano a 0,99. Le prestazioni impressionanti, la forte generalizzazione e le proprietà di scalabilità suggeriscono che POLAR rappresenta una direzione promettente per lo sviluppo di modelli di ricompensa generali e robusti.
English
We offer a novel perspective on reward modeling by formulating it as a policy discriminator, which quantifies the difference between two policies to generate a reward signal, guiding the training policy towards a target policy with desired behaviors. Based on this conceptual insight, we propose a scalable pre-training method named Policy Discriminative Learning (POLAR), which trains a reward model (RM) to discern identical policies and discriminate different ones. Unlike traditional reward modeling methods relying on absolute preferences, POLAR captures the relative difference between one policy and an arbitrary target policy, which is a scalable, high-level optimization objective suitable for modeling generic ranking relationships. Leveraging the POLAR pre-training paradigm, we present a series of RMs with parameter scales from 1.8B to 7B. Empirical results show that POLAR substantially outperforms traditional non-pre-trained methods, significantly enhancing RM performance. For instance, POLAR-7B could improve preference accuracy from 54.8% to 81.0% on STEM tasks and from 57.9% to 85.5% on creative writing tasks compared to SOTA baselines. POLAR also shows robust generalization capabilities in RLHF using Reinforcement Fine-tuning (RFT), providing reliable reward signals and markedly enhancing policy performance--improving LLaMa3.1-8B from an average of 47.36% to 56.33% and Qwen2.5-32B from 64.49% to 70.47% on 20 benchmarks. Moreover, scaling experiments reveal a clear power-law relationship between computation and performance, supported by linear correlation coefficients approaching 0.99. The impressive performance, strong generalization, and scaling properties suggest that POLAR is a promising direction for developing general and strong reward models.
PDF381July 8, 2025