VESPO: Otimização Variacional de Políticas Suaves a Nível de Sequência para Treinamento Estável de LLM Fora da Política

Resumo

A estabilidade do treinamento continua sendo um desafio central no aprendizado por reforço (RL) para modelos de linguagem grandes (LLMs). A obsolescência da política, o treinamento assíncrono e os descompassos entre os mecanismos de treinamento e inferência fazem com que a política de comportamento se desvie da política atual, arriscando um colapso do treinamento. A amostragem por importância fornece uma correção fundamentada para essa mudança de distribuição, mas sofre com alta variância; os remédios existentes, como o corte a nível de *token* e a normalização a nível de sequência, carecem de uma base teórica unificada. Propomos a Otimização de Política *Soft* a Nível de Sequência Variacional (VESPO). Ao incorporar a redução de variância numa formulação variacional sobre distribuições de proposta, o VESPO deriva um núcleo de reformulação de forma fechada que opera diretamente sobre os pesos de importância a nível de sequência, sem normalização de comprimento. Experimentos em benchmarks de raciocínio matemático mostram que o VESPO mantém o treinamento estável sob taxas de obsolescência de até 64x e execução totalmente assíncrona, e proporciona ganhos consistentes tanto em modelos densos como em modelos de Mistura de Especialistas. O código está disponível em https://github.com/FloyedShen/VESPO.

English

Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO

VESPO: Otimização Variacional de Políticas Suaves a Nível de Sequência para Treinamento Estável de LLM Fora da Política

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Resumo

Support