Más allá de la región de confianza uniforme a nivel de token en el aprendizaje por refuerzo de LLM

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) se ha convertido en el estándar para mejorar el razonamiento de los LLM. Sin embargo, los mecanismos de región de confianza estilo PPO existentes siguen siendo independientes de la posición, ya que imponen umbrales uniformes en todos los tokens de manera individual. Este tratamiento puntual entra en conflicto con la generación autorregresiva en dos aspectos críticos. Primero, los umbrales uniformes ignoran la asimetría autorregresiva. Las desviaciones en etapas tempranas producen una deriva acumulativa a nivel de secuencia, lo que provoca que los umbrales estáticos regulen insuficientemente la divergencia temprana y restrinjan excesivamente la exploración en etapas tardías. Segundo, evaluar la divergencia a nivel de token de forma aislada ignora la deriva acumulativa del prefijo, otorgando el mismo margen de divergencia independientemente de cuánto se haya desviado ya el historial condicionante con respecto a la política de despliegue. Para abordar esta limitación, proponemos CPPO (Optimización de Política con Divergencia Acumulativa del Prefijo), una regla de enmascaramiento a nivel de token que alinea las actualizaciones con una cota de mejora de política en horizonte finito mediante dos mecanismos acoplados. Primero, un umbral ponderado por posición impone límites más estrictos en posiciones tempranas, cuyos efectos persisten más tiempo, relajando las restricciones para los tokens en etapas tardías. Segundo, un presupuesto acumulativo del prefijo rastrea las desviaciones históricas, restringiendo dinámicamente la divergencia adicional a nivel de token para evitar errores acumulativos a lo largo del prefijo. Empíricamente, CPPO mejora la estabilidad del entrenamiento y aumenta significativamente la precisión en el razonamiento en varias escalas de modelo.

English

Reinforcement learning with verifiable rewards (RLVR) has become standard for improving LLM reasoning. However, existing PPO-style trust-region mechanisms remain position-agnostic by enforcing uniform thresholds across all tokens independently. This pointwise treatment conflicts with autoregressive generation in two critical ways. First, uniform thresholds ignore autoregressive asymmetry. Early-stage deviations produce compounding sequence-level drift, causing static thresholds to under-regulate early divergence and excessively constrain late-stage exploration. Second, evaluating token-level divergence in isolation overlooks cumulative prefix drift, granting the same divergence allowance regardless of how far the conditioning history has already deviated from the rollout policy. To address this limitation, we propose CPPO (Cumulative Prefix-divergence Policy Optimization), a token-level masking rule that aligns updates with a finite-horizon policy-improvement bound via two coupled mechanisms. First, a position-weighted threshold imposes stricter limits at early positions whose effects persist longer, relaxing constraints for late-stage tokens. Second, a cumulative prefix budget tracks historical deviations, dynamically restricting further token-level deviation to prevent compounding errors along the prefix. Empirically, CPPO enhances training stability and significantly improves reasoning accuracy across various model scales.