Не только где, но и когда: Временное планирование для RLVR

Аннотация

Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) стало ключевым методом постобучения больших языковых моделей (LLM). В то время как оптимизация политики движется всеми семплированными токенами под глобально транслируемым скалярным вознаграждением, гетерогенное поведение политики, проявляющееся вдоль траекторий, в значительной степени остается без дифференциации. Существующие работы решают эту проблему путем распределения кредита доверия, включая перевзвешивание преимуществ на уровне токенов и селективную оптимизацию токенов; однако критерии распределения остаются в основном стационарными на протяжении обучения, что ограничивает гибкое развитие политики. В данной работе мы утверждаем, что то, когда сигналы обучения планируются, может быть так же важно, как и то, где они распределяются между токенами, и вводим временное измерение, позволяющее планировать критерии распределения кредита доверия в ходе оптимизации RLVR. Мы обнаружили, что приоритизация целевых токенов, акцентированных определенным поведением политики, с последующим постепенным ослаблением в сторону общей оптимизации приводит к более стабильной и эффективной динамике обучения. Кроме того, мы показываем, что простые процентили траекторий дают естественную перспективу для различения поведения политики и эффективно работают с временным планированием. Наш анализ показывает, что стандартная оптимизация существенно жертвует энтропией политики при одновременном учете гетерогенных поведений, тогда как временное планирование приводит к более здоровой динамике развития политики. Эксперименты на бенчмарках математических и общих рассуждений демонстрируют последовательные улучшения, что позволяет предположить, что временное планирование представляет собой многообещающее измерение оптимизации.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core technique for post-training of Large Language Models (LLMs). While policy optimization is driven by all sampled tokens under a globally broadcast scalar reward, the heterogeneous policy behaviors exhibited along trajectories are largely overlooked without differentiation. Existing works address this by credit allocation, including token-level advantage reweighting, and selective token optimization, however, the allocation criterion are principally stagnant throughout training, limiting resilient policy evolution. In this work, we argue that when learning signals are scheduled can be as important as where they are allocated across tokens, and introduce the temporal dimension that scheduling the credit allocation criteria over the course of RLVR optimization. We find that prioritizing targeted tokens emphasized with specific policy behaviors, and gradually attenuating toward general optimization leads to more stable and efficient learning dynamics. Furthermore, we show that simple trajectory percentiles provide a natural perspective for distinguishing policy behaviors, and works effectively with temporal scheduling. Our analysis reveals that standard optimization substantially sacrifices policy entropy when simultaneously accommodating heterogeneous behaviors, whereas temporal scheduling yields healthier policy evolution dynamics. Experiments across mathematical and general reasoning benchmarks demonstrate consistent improvements, suggesting that temporal scheduling constitutes a promising optimization dimension.