VESPO: Вариационная последовательностная оптимизация мягкой политики для стабильного обучения языковых моделей вне политики

Аннотация

Стабильность обучения остается ключевой проблемой в обучении с подкреплением (RL) для больших языковых моделей (LLM). Устаревание политики, асинхронное обучение и несоответствия между механизмами обучения и вывода приводят к расхождению поведенческой политики с текущей, что создает риск коллапса обучения. Вариационный выбор дает принципиальную поправку на это смещение распределения, но страдает от высокой дисперсии; существующие методы, такие как токен-уровневое ограничение и нормализация на уровне последовательностей, не имеют единого теоретического обоснования. Мы предлагаем Вариационную мягкую оптимизацию политики на уровне последовательностей (VESPO). Интегрируя снижение дисперсии в вариационную формулировку над предлагаемыми распределениями, VESPO выводит замкнутое ядро преобразования, которое работает непосредственно с весами важности на уровне последовательностей без нормализации по длине. Эксперименты на бенчмарках математических рассуждений показывают, что VESPO сохраняет стабильность обучения при коэффициентах устаревания до 64x и полностью асинхронном выполнении, а также обеспечивает стабильное улучшение результатов как для плотных моделей, так и для моделей со смесью экспертов. Код доступен по адресу https://github.com/FloyedShen/VESPO.

English

Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO

VESPO: Вариационная последовательностная оптимизация мягкой политики для стабильного обучения языковых моделей вне политики

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Аннотация

Support