За пределами единообразной доверительной области на уровне токенов в обучении с подкреплением LLM

Аннотация

Обучение с подкреплением с верифицируемыми наградами (RLVR) стало стандартным подходом для улучшения рассуждений больших языковых моделей. Однако существующие механизмы доверительной области в стиле PPO остаются позиционно-агностическими, применяя единые пороговые значения ко всем токенам независимо. Эта поточечная обработка противоречит авторегрессивной генерации по двум критическим причинам. Во-первых, единые пороги игнорируют авторегрессивную асимметрию. Отклонения на ранних этапах вызывают накапливающийся дрейф на уровне последовательности, что приводит к недостаточному регулированию ранних расхождений и излишнему ограничению исследования на поздних этапах. Во-вторых, оценка расхождения на уровне токена в изоляции упускает из виду совокупный дрейф префикса, предоставляя одинаковый допуск на расхождение независимо от того, насколько далеко история обусловливания отклонилась от политики развертывания. Для устранения этого ограничения мы предлагаем CPPO (оптимизация политики с совокупной префиксной дивергенцией) — правило маскировки на уровне токенов, которое согласует обновления с границей улучшения политики с конечным горизонтом через два взаимосвязанных механизма. Во-первых, позиционно-взвешенный порог накладывает более строгие ограничения на ранние позиции, чьи эффекты сохраняются дольше, ослабляя ограничения для токенов на поздних этапах. Во-вторых, совокупный префиксный бюджет отслеживает исторические отклонения, динамически ограничивая дальнейшее отклонение на уровне токенов для предотвращения накопления ошибок вдоль префикса. Эмпирически CPPO повышает стабильность обучения и значительно улучшает точность рассуждений на различных масштабах моделей.

English

Reinforcement learning with verifiable rewards (RLVR) has become standard for improving LLM reasoning. However, existing PPO-style trust-region mechanisms remain position-agnostic by enforcing uniform thresholds across all tokens independently. This pointwise treatment conflicts with autoregressive generation in two critical ways. First, uniform thresholds ignore autoregressive asymmetry. Early-stage deviations produce compounding sequence-level drift, causing static thresholds to under-regulate early divergence and excessively constrain late-stage exploration. Second, evaluating token-level divergence in isolation overlooks cumulative prefix drift, granting the same divergence allowance regardless of how far the conditioning history has already deviated from the rollout policy. To address this limitation, we propose CPPO (Cumulative Prefix-divergence Policy Optimization), a token-level masking rule that aligns updates with a finite-horizon policy-improvement bound via two coupled mechanisms. First, a position-weighted threshold imposes stricter limits at early positions whose effects persist longer, relaxing constraints for late-stage tokens. Second, a cumulative prefix budget tracks historical deviations, dynamically restricting further token-level deviation to prevent compounding errors along the prefix. Empirically, CPPO enhances training stability and significantly improves reasoning accuracy across various model scales.