Vers une vision unifiée du post-entraînement des grands modèles de langage

papers.abstract

Deux principales sources de données d'entraînement existent pour le post-entraînement des modèles de langage modernes : les données en ligne (rollouts générés par le modèle) et les données hors ligne (démonstrations humaines ou provenant d'autres modèles). Ces deux types de données sont généralement utilisés respectivement par des approches comme l'apprentissage par renforcement (RL) et le réglage fin supervisé (SFT). Dans cet article, nous montrons que ces approches ne sont pas contradictoires, mais sont des instances d'un processus d'optimisation unique. Nous dérivons un estimateur de gradient de politique unifié et présentons les calculs d'un large spectre d'approches de post-entraînement comme le gradient d'un objectif commun sous différentes hypothèses de distribution de données et divers compromis biais-variance. L'estimateur de gradient est construit avec quatre parties interchangeables : un masque de stabilisation, un dénominateur de politique de référence, une estimation de l'avantage et un gradient de vraisemblance. Motivés par nos découvertes théoriques, nous proposons le Post-Entraînement Hybride (HPT), un algorithme qui sélectionne dynamiquement différents signaux d'entraînement. HPT est conçu pour permettre à la fois une exploitation efficace des démonstrations et une exploration stable sans sacrifier les schémas de raisonnement appris. Nous fournissons des expériences approfondies et des études d'ablation pour vérifier l'efficacité de notre cadre théorique unifié et de HPT. Sur six benchmarks de raisonnement mathématique et deux suites hors distribution, HPT surpasse systématiquement des bases de référence solides à travers des modèles de différentes échelles et familles.

English

Two major sources of training data exist for post-training modern language models: online (model-generated rollouts) data, and offline (human or other-model demonstrations) data. These two types of data are typically used by approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT), respectively. In this paper, we show that these approaches are not in contradiction, but are instances of a single optimization process. We derive a Unified Policy Gradient Estimator, and present the calculations of a wide spectrum of post-training approaches as the gradient of a common objective under different data distribution assumptions and various bias-variance tradeoffs. The gradient estimator is constructed with four interchangeable parts: stabilization mask, reference policy denominator, advantage estimate, and likelihood gradient. Motivated by our theoretical findings, we propose Hybrid Post-Training (HPT), an algorithm that dynamically selects different training signals. HPT is designed to yield both effective exploitation of demonstration and stable exploration without sacrificing learned reasoning patterns. We provide extensive experiments and ablation studies to verify the effectiveness of our unified theoretical framework and HPT. Across six mathematical reasoning benchmarks and two out-of-distribution suites, HPT consistently surpasses strong baselines across models of varying scales and families.

Vers une vision unifiée du post-entraînement des grands modèles de langage

Towards a Unified View of Large Language Model Post-Training

papers.abstract

Support