Vers une vision unifiée du post-entraînement des grands modèles de langage
Towards a Unified View of Large Language Model Post-Training
September 4, 2025
papers.authors: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou
cs.AI
papers.abstract
Deux principales sources de données d'entraînement existent pour le post-entraînement des modèles de langage modernes : les données en ligne (rollouts générés par le modèle) et les données hors ligne (démonstrations humaines ou provenant d'autres modèles). Ces deux types de données sont généralement utilisés respectivement par des approches comme l'apprentissage par renforcement (RL) et le réglage fin supervisé (SFT). Dans cet article, nous montrons que ces approches ne sont pas contradictoires, mais sont des instances d'un processus d'optimisation unique. Nous dérivons un estimateur de gradient de politique unifié et présentons les calculs d'un large spectre d'approches de post-entraînement comme le gradient d'un objectif commun sous différentes hypothèses de distribution de données et divers compromis biais-variance. L'estimateur de gradient est construit avec quatre parties interchangeables : un masque de stabilisation, un dénominateur de politique de référence, une estimation de l'avantage et un gradient de vraisemblance. Motivés par nos découvertes théoriques, nous proposons le Post-Entraînement Hybride (HPT), un algorithme qui sélectionne dynamiquement différents signaux d'entraînement. HPT est conçu pour permettre à la fois une exploitation efficace des démonstrations et une exploration stable sans sacrifier les schémas de raisonnement appris. Nous fournissons des expériences approfondies et des études d'ablation pour vérifier l'efficacité de notre cadre théorique unifié et de HPT. Sur six benchmarks de raisonnement mathématique et deux suites hors distribution, HPT surpasse systématiquement des bases de référence solides à travers des modèles de différentes échelles et familles.
English
Two major sources of training data exist for post-training modern language
models: online (model-generated rollouts) data, and offline (human or
other-model demonstrations) data. These two types of data are typically used by
approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT),
respectively. In this paper, we show that these approaches are not in
contradiction, but are instances of a single optimization process. We derive a
Unified Policy Gradient Estimator, and present the calculations of a wide
spectrum of post-training approaches as the gradient of a common objective
under different data distribution assumptions and various bias-variance
tradeoffs. The gradient estimator is constructed with four interchangeable
parts: stabilization mask, reference policy denominator, advantage estimate,
and likelihood gradient. Motivated by our theoretical findings, we propose
Hybrid Post-Training (HPT), an algorithm that dynamically selects different
training signals. HPT is designed to yield both effective exploitation of
demonstration and stable exploration without sacrificing learned reasoning
patterns. We provide extensive experiments and ablation studies to verify the
effectiveness of our unified theoretical framework and HPT. Across six
mathematical reasoning benchmarks and two out-of-distribution suites, HPT
consistently surpasses strong baselines across models of varying scales and
families.