Non seulement où, mais quand : ordonnancement temporel pour RLVR

Résumé

L’apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une technique centrale pour le post-entraînement des grands modèles de langage (LLMs). Bien que l’optimisation de la politique soit pilotée par l’ensemble des tokens échantillonnés sous l’effet d’une récompense scalaire diffusée globalement, les comportements politiques hétérogènes observés le long des trajectoires sont largement négligés, sans différenciation. Les travaux existants abordent ce problème via l’allocation de crédit, notamment la repondération des avantages au niveau des tokens et l’optimisation sélective des tokens. Cependant, les critères d’allocation restent principalement stagnants tout au long de l’entraînement, limitant ainsi une évolution résiliente de la politique. Dans ce travail, nous soutenons que le moment où les signaux d’apprentissage sont programmés peut être aussi important que l’endroit où ils sont alloués parmi les tokens, et nous introduisons la dimension temporelle qui consiste à ordonnancer les critères d’allocation de crédit au cours de l’optimisation RLVR. Nous constatons que prioriser les tokens ciblés avec des comportements politiques spécifiques, puis atténuer progressivement vers une optimisation générale, conduit à une dynamique d’apprentissage plus stable et plus efficace. De plus, nous montrons que de simples percentiles de trajectoire offrent une perspective naturelle pour distinguer les comportements politiques et fonctionnent efficacement avec l’ordonnancement temporel. Notre analyse révèle que l’optimisation standard sacrifie considérablement l’entropie de la politique lorsqu’elle doit accommoder simultanément des comportements hétérogènes, tandis que l’ordonnancement temporel produit une dynamique d’évolution politique plus saine. Des expériences sur des benchmarks de raisonnement mathématique et général démontrent des améliorations constantes, suggérant que l’ordonnancement temporel constitue une dimension d’optimisation prometteuse.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core technique for post-training of Large Language Models (LLMs). While policy optimization is driven by all sampled tokens under a globally broadcast scalar reward, the heterogeneous policy behaviors exhibited along trajectories are largely overlooked without differentiation. Existing works address this by credit allocation, including token-level advantage reweighting, and selective token optimization, however, the allocation criterion are principally stagnant throughout training, limiting resilient policy evolution. In this work, we argue that when learning signals are scheduled can be as important as where they are allocated across tokens, and introduce the temporal dimension that scheduling the credit allocation criteria over the course of RLVR optimization. We find that prioritizing targeted tokens emphasized with specific policy behaviors, and gradually attenuating toward general optimization leads to more stable and efficient learning dynamics. Furthermore, we show that simple trajectory percentiles provide a natural perspective for distinguishing policy behaviors, and works effectively with temporal scheduling. Our analysis reveals that standard optimization substantially sacrifices policy entropy when simultaneously accommodating heterogeneous behaviors, whereas temporal scheduling yields healthier policy evolution dynamics. Experiments across mathematical and general reasoning benchmarks demonstrate consistent improvements, suggesting that temporal scheduling constitutes a promising optimization dimension.