VESPO: Variëtionele Sequentieniveau-Zacht-Beleidsoptimalisatie voor Stabiele Off-Policy LLM-Training

Samenvatting

Trainingsstabiliteit blijft een centrale uitdaging bij reinforcement learning (RL) voor grote taalmmodellen (LLM's). Beleidsveroudering, asynchrone training en verschillen tussen trainings- en inferentie-engines zorgen er allemaal voor dat het gedragsbeleid afwijkt van het huidige beleid, wat het risico op trainingsinstorting met zich meebrengt. Belangsampling biedt een principiële correctie voor deze distributieverschuiving, maar lijdt onder hoge variantie; bestaande oplossingen zoals token-level clipping en sequentieniveau-normalisatie missen een eenduidige theoretische basis. Wij stellen Variational sEquence-level Soft Policy Optimization (VESPO) voor. Door variantiereductie op te nemen in een variationele formulering over voorstellingsdistributies, leidt VESPO een gesloten-vorm hervormingskernel af die rechtstreeks werkt op sequentieniveau-belanggewichten zonder lengtenormalisatie. Experimenten op wiskundige redeneerbenchmarks tonen aan dat VESPO een stabiele training handhaaft bij verouderingsratio's tot 64x en volledig asynchrone uitvoering, en consistente verbeteringen oplevert bij zowel dense modellen als Mixture-of-Experts-modellen. Code is beschikbaar op https://github.com/FloyedShen/VESPO.

English

Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO

VESPO: Variëtionele Sequentieniveau-Zacht-Beleidsoptimalisatie voor Stabiele Off-Policy LLM-Training

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Samenvatting

Support