ChatPaper.aiChatPaper

Discriminadores de Política Pré-Treinados são Modelos Gerais de Recompensa

Pre-Trained Policy Discriminators are General Reward Models

July 7, 2025
Autores: Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
cs.AI

Resumo

Oferecemos uma nova perspectiva sobre a modelagem de recompensas ao formulá-la como um discriminador de políticas, que quantifica a diferença entre duas políticas para gerar um sinal de recompensa, guiando a política de treinamento em direção a uma política alvo com comportamentos desejados. Com base nessa visão conceitual, propomos um método escalável de pré-treinamento chamado Aprendizado Discriminativo de Políticas (POLAR), que treina um modelo de recompensa (RM) para discernir políticas idênticas e discriminar políticas diferentes. Diferente dos métodos tradicionais de modelagem de recompensas que dependem de preferências absolutas, o POLAR captura a diferença relativa entre uma política e uma política alvo arbitrária, sendo um objetivo de otimização de alto nível e escalável, adequado para modelar relações genéricas de classificação. Aproveitando o paradigma de pré-treinamento POLAR, apresentamos uma série de RMs com escalas de parâmetros de 1,8B a 7B. Resultados empíricos mostram que o POLAR supera substancialmente métodos tradicionais sem pré-treinamento, melhorando significativamente o desempenho do RM. Por exemplo, o POLAR-7B pode melhorar a precisão de preferência de 54,8% para 81,0% em tarefas STEM e de 57,9% para 85,5% em tarefas de escrita criativa em comparação com baselines state-of-the-art (SOTA). O POLAR também demonstra capacidades robustas de generalização em RLHF usando Ajuste Fino por Reforço (RFT), fornecendo sinais de recompensa confiáveis e melhorando marcadamente o desempenho da política—aumentando o LLaMa3.1-8B de uma média de 47,36% para 56,33% e o Qwen2.5-32B de 64,49% para 70,47% em 20 benchmarks. Além disso, experimentos de escalonamento revelam uma clara relação de lei de potência entre computação e desempenho, apoiada por coeficientes de correlação linear próximos de 0,99. O desempenho impressionante, a forte generalização e as propriedades de escalonamento sugerem que o POLAR é uma direção promissora para o desenvolvimento de modelos de recompensa gerais e robustos.
English
We offer a novel perspective on reward modeling by formulating it as a policy discriminator, which quantifies the difference between two policies to generate a reward signal, guiding the training policy towards a target policy with desired behaviors. Based on this conceptual insight, we propose a scalable pre-training method named Policy Discriminative Learning (POLAR), which trains a reward model (RM) to discern identical policies and discriminate different ones. Unlike traditional reward modeling methods relying on absolute preferences, POLAR captures the relative difference between one policy and an arbitrary target policy, which is a scalable, high-level optimization objective suitable for modeling generic ranking relationships. Leveraging the POLAR pre-training paradigm, we present a series of RMs with parameter scales from 1.8B to 7B. Empirical results show that POLAR substantially outperforms traditional non-pre-trained methods, significantly enhancing RM performance. For instance, POLAR-7B could improve preference accuracy from 54.8% to 81.0% on STEM tasks and from 57.9% to 85.5% on creative writing tasks compared to SOTA baselines. POLAR also shows robust generalization capabilities in RLHF using Reinforcement Fine-tuning (RFT), providing reliable reward signals and markedly enhancing policy performance--improving LLaMa3.1-8B from an average of 47.36% to 56.33% and Qwen2.5-32B from 64.49% to 70.47% on 20 benchmarks. Moreover, scaling experiments reveal a clear power-law relationship between computation and performance, supported by linear correlation coefficients approaching 0.99. The impressive performance, strong generalization, and scaling properties suggest that POLAR is a promising direction for developing general and strong reward models.
PDF361July 8, 2025