ChatPaper.aiChatPaper

Los Discriminadores de Política Preentrenados son Modelos Generales de Recompensa.

Pre-Trained Policy Discriminators are General Reward Models

July 7, 2025
Autores: Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
cs.AI

Resumen

Ofrecemos una perspectiva novedosa sobre el modelado de recompensas al formularlo como un discriminador de políticas, que cuantifica la diferencia entre dos políticas para generar una señal de recompensa, guiando la política de entrenamiento hacia una política objetivo con comportamientos deseados. Basándonos en esta idea conceptual, proponemos un método escalable de pre-entrenamiento denominado Aprendizaje Discriminativo de Políticas (POLAR), que entrena un modelo de recompensas (RM) para discernir políticas idénticas y discriminar aquellas diferentes. A diferencia de los métodos tradicionales de modelado de recompensas que dependen de preferencias absolutas, POLAR captura la diferencia relativa entre una política y una política objetivo arbitraria, lo que constituye un objetivo de optimización de alto nivel y escalable, adecuado para modelar relaciones genéricas de clasificación. Aprovechando el paradigma de pre-entrenamiento POLAR, presentamos una serie de RMs con escalas de parámetros que van desde 1.8B hasta 7B. Los resultados empíricos muestran que POLAR supera sustancialmente a los métodos tradicionales no pre-entrenados, mejorando significativamente el rendimiento de los RM. Por ejemplo, POLAR-7B podría mejorar la precisión de preferencias del 54.8% al 81.0% en tareas STEM y del 57.9% al 85.5% en tareas de escritura creativa en comparación con los baselines SOTA. POLAR también muestra capacidades robustas de generalización en RLHF utilizando Ajuste Fino por Refuerzo (RFT), proporcionando señales de recompensa confiables y mejorando notablemente el rendimiento de las políticas—mejorando LLaMa3.1-8B de un promedio del 47.36% al 56.33% y Qwen2.5-32B del 64.49% al 70.47% en 20 benchmarks. Además, los experimentos de escalado revelan una clara relación de ley de potencia entre el cómputo y el rendimiento, respaldada por coeficientes de correlación lineal que se acercan a 0.99. El impresionante rendimiento, la fuerte generalización y las propiedades de escalado sugieren que POLAR es una dirección prometedora para el desarrollo de modelos de recompensas generales y potentes.
English
We offer a novel perspective on reward modeling by formulating it as a policy discriminator, which quantifies the difference between two policies to generate a reward signal, guiding the training policy towards a target policy with desired behaviors. Based on this conceptual insight, we propose a scalable pre-training method named Policy Discriminative Learning (POLAR), which trains a reward model (RM) to discern identical policies and discriminate different ones. Unlike traditional reward modeling methods relying on absolute preferences, POLAR captures the relative difference between one policy and an arbitrary target policy, which is a scalable, high-level optimization objective suitable for modeling generic ranking relationships. Leveraging the POLAR pre-training paradigm, we present a series of RMs with parameter scales from 1.8B to 7B. Empirical results show that POLAR substantially outperforms traditional non-pre-trained methods, significantly enhancing RM performance. For instance, POLAR-7B could improve preference accuracy from 54.8% to 81.0% on STEM tasks and from 57.9% to 85.5% on creative writing tasks compared to SOTA baselines. POLAR also shows robust generalization capabilities in RLHF using Reinforcement Fine-tuning (RFT), providing reliable reward signals and markedly enhancing policy performance--improving LLaMa3.1-8B from an average of 47.36% to 56.33% and Qwen2.5-32B from 64.49% to 70.47% on 20 benchmarks. Moreover, scaling experiments reveal a clear power-law relationship between computation and performance, supported by linear correlation coefficients approaching 0.99. The impressive performance, strong generalization, and scaling properties suggest that POLAR is a promising direction for developing general and strong reward models.
PDF261July 8, 2025