VESPO : Optimisation Variationnelle de Politique Douce au Niveau Séquentiel pour un Entraînement Stable de LLM Hors-Politique

Résumé

La stabilité de l'entraînement demeure un défi central dans l'apprentissage par renforcement (RL) pour les grands modèles de langage (LLM). La vétusté des politiques, l'entraînement asynchrone et les décalages entre les moteurs d'entraînement et d'inférence provoquent tous une divergence entre la politique comportementale et la politique actuelle, risquant un effondrement de l'entraînement. L'échantillonnage par importance fournit une correction théorique à ce décalage de distribution mais souffre d'une variance élevée ; les remèdes existants tels que le clipping au niveau des tokens et la normalisation au niveau des séquences manquent d'une fondation théorique unifiée. Nous proposons l'Optimisation Variationnelle des Politiques Douces au Niveau des Séquences (VESPO). En intégrant la réduction de variance dans une formulation variationnelle sur les distributions de proposition, VESPO dérive un noyau de remodelage en forme close qui opère directement sur les poids d'importance au niveau des séquences sans normalisation de longueur. Les expériences sur des benchmarks de raisonnement mathématique montrent que VESPO maintient un entraînement stable avec des ratios de vétusté allant jusqu'à 64x et une exécution totalement asynchrone, et offre des gains constants à la fois pour les modèles denses et les modèles Mixture-of-Experts. Le code est disponible à l'adresse https://github.com/FloyedShen/VESPO

English

Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO

VESPO : Optimisation Variationnelle de Politique Douce au Niveau Séquentiel pour un Entraînement Stable de LLM Hors-Politique

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Résumé

Support