К единому взгляду на посттренировку больших языковых моделей
Towards a Unified View of Large Language Model Post-Training
September 4, 2025
Авторы: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou
cs.AI
Аннотация
Существует два основных источника обучающих данных для посттренировки современных языковых моделей: онлайн-данные (сгенерированные моделью последовательности) и оффлайн-данные (демонстрации от людей или других моделей). Эти два типа данных обычно используются подходами, такими как обучение с подкреплением (Reinforcement Learning, RL) и тонкая настройка с учителем (Supervised Fine-Tuning, SFT), соответственно. В данной работе мы показываем, что эти подходы не противоречат друг другу, а являются частями единого процесса оптимизации. Мы выводим унифицированный оценщик градиента политики и представляем вычисления для широкого спектра подходов посттренировки как градиент общей целевой функции при различных предположениях о распределении данных и различных компромиссах между смещением и дисперсией. Оценщик градиента строится из четырех взаимозаменяемых компонентов: маски стабилизации, знаменателя эталонной политики, оценки преимущества и градиента правдоподобия. Вдохновленные нашими теоретическими выводами, мы предлагаем гибридную посттренировку (Hybrid Post-Training, HPT) — алгоритм, который динамически выбирает различные обучающие сигналы. HPT разработан для эффективного использования демонстраций и стабильного исследования без ущерба для изученных паттернов рассуждений. Мы проводим обширные эксперименты и исследования с удалением компонентов, чтобы подтвердить эффективность нашей унифицированной теоретической основы и HPT. На шести бенчмарках математического рассуждения и двух наборах данных вне распределения HPT стабильно превосходит сильные базовые модели различных масштабов и семейств.
English
Two major sources of training data exist for post-training modern language
models: online (model-generated rollouts) data, and offline (human or
other-model demonstrations) data. These two types of data are typically used by
approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT),
respectively. In this paper, we show that these approaches are not in
contradiction, but are instances of a single optimization process. We derive a
Unified Policy Gradient Estimator, and present the calculations of a wide
spectrum of post-training approaches as the gradient of a common objective
under different data distribution assumptions and various bias-variance
tradeoffs. The gradient estimator is constructed with four interchangeable
parts: stabilization mask, reference policy denominator, advantage estimate,
and likelihood gradient. Motivated by our theoretical findings, we propose
Hybrid Post-Training (HPT), an algorithm that dynamically selects different
training signals. HPT is designed to yield both effective exploitation of
demonstration and stable exploration without sacrificing learned reasoning
patterns. We provide extensive experiments and ablation studies to verify the
effectiveness of our unified theoretical framework and HPT. Across six
mathematical reasoning benchmarks and two out-of-distribution suites, HPT
consistently surpasses strong baselines across models of varying scales and
families.