Hacia una Visión Unificada del Post-Entrenamiento de Modelos de Lenguaje a Gran Escala
Towards a Unified View of Large Language Model Post-Training
September 4, 2025
Autores: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou
cs.AI
Resumen
Existen dos fuentes principales de datos de entrenamiento para el ajuste posterior de modelos de lenguaje modernos: datos en línea (desarrollos generados por el modelo) y datos fuera de línea (demostraciones humanas o de otros modelos). Estos dos tipos de datos son típicamente utilizados por enfoques como el Aprendizaje por Refuerzo (RL) y el Ajuste Supervisado (SFT), respectivamente. En este artículo, demostramos que estos enfoques no son contradictorios, sino instancias de un único proceso de optimización. Derivamos un Estimador Unificado de Gradiente de Política y presentamos los cálculos de un amplio espectro de enfoques de ajuste posterior como el gradiente de un objetivo común bajo diferentes suposiciones de distribución de datos y varios equilibrios entre sesgo y varianza. El estimador de gradiente se construye con cuatro partes intercambiables: máscara de estabilización, denominador de política de referencia, estimación de ventaja y gradiente de verosimilitud. Motivados por nuestros hallazgos teóricos, proponemos el Ajuste Posterior Híbrido (HPT), un algoritmo que selecciona dinámicamente diferentes señales de entrenamiento. HPT está diseñado para lograr tanto una explotación efectiva de las demostraciones como una exploración estable sin sacrificar los patrones de razonamiento aprendidos. Proporcionamos extensos experimentos y estudios de ablación para verificar la efectividad de nuestro marco teórico unificado y de HPT. En seis puntos de referencia de razonamiento matemático y dos conjuntos fuera de distribución, HPT supera consistentemente líneas de base sólidas en modelos de diversas escalas y familias.
English
Two major sources of training data exist for post-training modern language
models: online (model-generated rollouts) data, and offline (human or
other-model demonstrations) data. These two types of data are typically used by
approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT),
respectively. In this paper, we show that these approaches are not in
contradiction, but are instances of a single optimization process. We derive a
Unified Policy Gradient Estimator, and present the calculations of a wide
spectrum of post-training approaches as the gradient of a common objective
under different data distribution assumptions and various bias-variance
tradeoffs. The gradient estimator is constructed with four interchangeable
parts: stabilization mask, reference policy denominator, advantage estimate,
and likelihood gradient. Motivated by our theoretical findings, we propose
Hybrid Post-Training (HPT), an algorithm that dynamically selects different
training signals. HPT is designed to yield both effective exploitation of
demonstration and stable exploration without sacrificing learned reasoning
patterns. We provide extensive experiments and ablation studies to verify the
effectiveness of our unified theoretical framework and HPT. Across six
mathematical reasoning benchmarks and two out-of-distribution suites, HPT
consistently surpasses strong baselines across models of varying scales and
families.