VESPO: Variationale Sequenzebenen-Soft-Policy-Optimierung für stabiles Off-Policy-Training von LLMs

Zusammenfassung

Die Trainingsstabilität bleibt eine zentrale Herausforderung beim Reinforcement Learning (RL) für große Sprachmodelle (LLMs). Politiklatenz, asynchrones Training und Diskrepanzen zwischen Trainings- und Inferenz-Engines führen dazu, dass sich die Verhaltenspolitik von der aktuellen Politik entfernt, was das Risiko eines Trainingszusammenbruchs birgt. Importance Sampling bietet eine prinzipielle Korrektur für diese Verteilungsverschiebung, leidet jedoch unter hoher Varianz; bestehende Abhilfemaßnahmen wie Token-Level-Clipping und Sequenzlevel-Normalisierung entbehren einer einheitlichen theoretischen Grundlage. Wir schlagen Variational sEquence-level Soft Policy Optimization (VESPO) vor. Durch die Integration von Varianzreduktion in eine variationsbasierte Formulierung über Vorschlagsverteilungen leitet VESPO einen geschlossenen Umformungskernel ab, der direkt auf Sequenzlevel-Importance-Weights ohne Längennormalisierung operiert. Experimente auf mathematischen Reasoning-Benchmarks zeigen, dass VESPO unter Latenzverhältnissen von bis zu 64x und vollständig asynchroner Ausführung ein stabiles Training aufrechterhält und konsistente Verbesserungen sowohl bei dichten Modellen als auch bei Mixture-of-Experts-Modellen erzielt. Code ist verfügbar unter https://github.com/FloyedShen/VESPO.

English

Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO

VESPO: Variationale Sequenzebenen-Soft-Policy-Optimierung für stabiles Off-Policy-Training von LLMs

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Zusammenfassung

Support