Предварительно обученные дискриминаторы политик являются универсальными моделями вознаграждения.
Pre-Trained Policy Discriminators are General Reward Models
July 7, 2025
Авторы: Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
cs.AI
Аннотация
Мы предлагаем новый взгляд на моделирование вознаграждений, формулируя его как дискриминатор политик, который количественно оценивает разницу между двумя политиками для генерации сигнала вознаграждения, направляющего обучаемую политику к целевой политике с желаемым поведением. Основываясь на этой концептуальной идее, мы предлагаем масштабируемый метод предварительного обучения под названием Policy Discriminative Learning (POLAR), который обучает модель вознаграждения (RM) распознавать идентичные политики и различать различные. В отличие от традиционных методов моделирования вознаграждений, основанных на абсолютных предпочтениях, POLAR фиксирует относительную разницу между одной политикой и произвольной целевой политикой, что представляет собой масштабируемую, высокоуровневую цель оптимизации, подходящую для моделирования общих ранжирующих отношений. Используя парадигму предварительного обучения POLAR, мы представляем серию моделей вознаграждения с масштабами параметров от 1,8 млрд до 7 млрд. Эмпирические результаты показывают, что POLAR значительно превосходит традиционные методы без предварительного обучения, существенно улучшая производительность RM. Например, POLAR-7B может повысить точность предпочтений с 54,8% до 81,0% на задачах STEM и с 57,9% до 85,5% на задачах творческого письма по сравнению с современными базовыми методами. POLAR также демонстрирует устойчивые обобщающие способности в RLHF с использованием Reinforcement Fine-tuning (RFT), предоставляя надежные сигналы вознаграждения и заметно улучшая производительность политик — повышая средний показатель LLaMa3.1-8B с 47,36% до 56,33% и Qwen2.5-32B с 64,49% до 70,47% на 20 тестовых наборах. Более того, эксперименты по масштабированию выявляют четкую степенную зависимость между вычислительными ресурсами и производительностью, подтверждаемую коэффициентами линейной корреляции, приближающимися к 0,99. Впечатляющая производительность, сильные обобщающие способности и свойства масштабирования позволяют предположить, что POLAR является перспективным направлением для разработки общих и мощных моделей вознаграждений.
English
We offer a novel perspective on reward modeling by formulating it as a policy
discriminator, which quantifies the difference between two policies to generate
a reward signal, guiding the training policy towards a target policy with
desired behaviors. Based on this conceptual insight, we propose a scalable
pre-training method named Policy Discriminative Learning (POLAR), which trains
a reward model (RM) to discern identical policies and discriminate different
ones. Unlike traditional reward modeling methods relying on absolute
preferences, POLAR captures the relative difference between one policy and an
arbitrary target policy, which is a scalable, high-level optimization objective
suitable for modeling generic ranking relationships. Leveraging the POLAR
pre-training paradigm, we present a series of RMs with parameter scales from
1.8B to 7B. Empirical results show that POLAR substantially outperforms
traditional non-pre-trained methods, significantly enhancing RM performance.
For instance, POLAR-7B could improve preference accuracy from 54.8% to 81.0% on
STEM tasks and from 57.9% to 85.5% on creative writing tasks compared to SOTA
baselines. POLAR also shows robust generalization capabilities in RLHF using
Reinforcement Fine-tuning (RFT), providing reliable reward signals and markedly
enhancing policy performance--improving LLaMa3.1-8B from an average of 47.36%
to 56.33% and Qwen2.5-32B from 64.49% to 70.47% on 20 benchmarks. Moreover,
scaling experiments reveal a clear power-law relationship between computation
and performance, supported by linear correlation coefficients approaching 0.99.
The impressive performance, strong generalization, and scaling properties
suggest that POLAR is a promising direction for developing general and strong
reward models.