VESPO: Optimización de Políticas Suaves a Nivel de Secuencia Variacional para un Entrenamiento Estable de LLM Fuera de Política

Resumen

La estabilidad del entrenamiento sigue siendo un desafío central en el aprendizaje por refuerzo (RL) para modelos de lenguaje grandes (LLM). La obsolescencia de la política, el entrenamiento asíncrono y los desajustes entre los motores de entrenamiento e inferencia hacen que la política de comportamiento diverja de la política actual, arriesgando un colapso del entrenamiento. El muestreo por importancia proporciona una corrección fundamentada para este cambio de distribución, pero sufre de alta varianza; los remedios existentes, como el recorte a nivel de token y la normalización a nivel de secuencia, carecen de una base teórica unificada. Proponemos la Optimización de Políticas Suaves a Nivel de Secuencia Variacional (VESPO). Al incorporar la reducción de varianza en una formulación variacional sobre distribuciones de propuesta, VESPO deriva un núcleo de remodelación de forma cerrada que opera directamente sobre los pesos de importancia a nivel de secuencia sin normalización de longitud. Los experimentos en benchmarks de razonamiento matemático muestran que VESPO mantiene un entrenamiento estable bajo ratios de obsolescencia de hasta 64x y ejecución completamente asíncrona, y proporciona ganancias consistentes tanto en modelos densos como en modelos de Mezcla de Expertos (Mixture-of-Experts). El código está disponible en https://github.com/FloyedShen/VESPO.

English

Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO

VESPO: Optimización de Políticas Suaves a Nivel de Secuencia Variacional para un Entrenamiento Estable de LLM Fuera de Política

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Resumen

Support