Repensando la Regularización de la Divergencia en el RL de LLM

Resumen

El aprendizaje por refuerzo (RL) se ha convertido en un componente clave del post-entrenamiento de modelos de lenguaje a gran escala (LLMs). En la práctica, el RL en LLMs suele ser fuera de política debido al desajuste entre entrenamiento e inferencia y al estancamiento de la política, lo que hace que el control de la región de confianza sea esencial para una optimización estable. Métodos principales como PPO y GRPO aproximan este control con un mecanismo de recorte de razón, pero la razón de importancia puede ser un proxy deficiente para el cambio distribucional en vocabularios de cola larga. Trabajos recientes como DPPO abordan este desajuste reemplazando el recorte basado en razón con una máscara basada en divergencia, generando una región de confianza definida por el cambio absoluto de probabilidad del token muestreado. Sin embargo, DPPO aún depende de una máscara dura: una vez que un token cruza el límite de la región de confianza en una dirección dañina, su gradiente se descarta en lugar de corregirse. Para abordar esto, proponemos la Optimización de Política Regularizada por Divergencia (DRPO), que reemplaza la máscara dura con un regularizador cuadrático suave ponderado por ventaja sobre el cambio de política. DRPO preserva la misma geometría de región de confianza que DPPO mientras induce pesos de gradiente acotados y continuos que atenúan actualizaciones divergentes y proporcionan señales correctivas más allá del límite. Experimentos a través de escalas de modelo, arquitecturas y configuraciones de precisión muestran que DRPO mejora la estabilidad y eficiencia del entrenamiento de RL en LLMs.

English

Reinforcement learning (RL) has become a key component of post-training large language models (LLMs). In practice, LLM RL is often off-policy because of training-inference mismatch and policy staleness, making trust-region control essential for stable optimization. Mainstream methods such as PPO and GRPO approximate this control with a ratio-clipping mechanism, but the importance ratio can be a poor proxy for distributional shift in long-tailed vocabularies. Recent work such as DPPO addresses this mismatch by replacing ratio-based clipping with a divergence-based mask, yielding a trust region defined by the sampled token's absolute probability shift. However, DPPO still relies on a hard mask: once a token crosses the trust-region boundary in a harmful direction, its gradient is discarded rather than corrected. To address this, we propose Divergence Regularized Policy Optimization (DRPO), which replaces the hard mask with a smooth advantage-weighted quadratic regularizer on policy shift. DRPO preserves the same trust-region geometry as DPPO while inducing bounded, continuous gradient weights that attenuate diverging updates and provide corrective signals beyond the boundary. Experiments across model scales, architectures, and precision settings show that DRPO improves the stability and efficiency of LLM RL training.