VESPO: Ottimizzazione della Politica Morbida a Livello di Sequenza Variazionale per un Addestramento Stabile di LLM Off-Policy

Abstract

La stabilità dell'addestramento rimane una sfida centrale nell'apprendimento per rinforzo (RL) per i grandi modelli linguistici (LLM). L'obsolescenza della politica, l'addestramento asincrono e le discrepanze tra i motori di addestramento e inferenza causano tutti una divergenza della politica comportamentale dalla politica corrente, rischiando il collasso dell'addestramento. Il campionamento per importanza fornisce una correzione principiata per questo spostamento di distribuzione, ma soffre di un'elevata varianza; i rimedi esistenti, come il clipping a livello di token e la normalizzazione a livello di sequenza, mancano di una base teorica unificata. Proponiamo l'Ottimizzazione della Politica Soft a Livello di Sequenza Variazionale (VESPO). Incorporando la riduzione della varianza in una formulazione variazionale sulle distribuzioni proposta, VESPO deriva un kernel di rimodellamento in forma chiusa che opera direttamente sui pesi di importanza a livello di sequenza senza normalizzazione della lunghezza. Esperimenti su benchmark di ragionamento matematico mostrano che VESPO mantiene un addestramento stabile con rapporti di obsolescenza fino a 64x ed esecuzione completamente asincrona, e fornisce miglioramenti consistenti sia per modelli densi che per modelli Mixture-of-Experts. Il codice è disponibile all'indirizzo https://github.com/FloyedShen/VESPO.

English

Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO

VESPO: Ottimizzazione della Politica Morbida a Livello di Sequenza Variazionale per un Addestramento Stabile di LLM Off-Policy

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Abstract

Support