Não apenas onde, mas quando: Agendamento Temporal para RLVR

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma técnica central para o pós-treinamento de Modelos de Linguagem de Grande Escala (LLMs). Embora a otimização de política seja impulsionada por todos os tokens amostrados sob uma recompensa escalar globalmente transmitida, os comportamentos heterogêneos de política exibidos ao longo das trajetórias são amplamente negligenciados, sem diferenciação. Trabalhos existentes abordam isso por meio da alocação de crédito, incluindo reatribuição de vantagem em nível de token e otimização seletiva de tokens; no entanto, os critérios de alocação permanecem essencialmente estagnados ao longo do treinamento, limitando a evolução resiliente da política. Neste trabalho, argumentamos que *quando* os sinais de aprendizado são programados pode ser tão importante quanto *onde* eles são alocados entre os tokens, e introduzimos a dimensão temporal, que agenda os critérios de alocação de crédito ao longo da otimização RLVR. Descobrimos que priorizar tokens específicos enfatizados com comportamentos de política particulares, e atenuar gradualmente em direção à otimização geral, leva a uma dinâmica de aprendizado mais estável e eficiente. Além disso, mostramos que percentis simples de trajetória fornecem uma perspectiva natural para distinguir comportamentos de política e funcionam de forma eficaz com o agendamento temporal. Nossa análise revela que a otimização padrão sacrifica substancialmente a entropia da política ao acomodar simultaneamente comportamentos heterogêneos, enquanto o agendamento temporal produz uma dinâmica de evolução da política mais saudável. Experimentos em benchmarks de raciocínio matemático e geral demonstram melhorias consistentes, sugerindo que o agendamento temporal constitui uma dimensão de otimização promissora.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core technique for post-training of Large Language Models (LLMs). While policy optimization is driven by all sampled tokens under a globally broadcast scalar reward, the heterogeneous policy behaviors exhibited along trajectories are largely overlooked without differentiation. Existing works address this by credit allocation, including token-level advantage reweighting, and selective token optimization, however, the allocation criterion are principally stagnant throughout training, limiting resilient policy evolution. In this work, we argue that when learning signals are scheduled can be as important as where they are allocated across tokens, and introduce the temporal dimension that scheduling the credit allocation criteria over the course of RLVR optimization. We find that prioritizing targeted tokens emphasized with specific policy behaviors, and gradually attenuating toward general optimization leads to more stable and efficient learning dynamics. Furthermore, we show that simple trajectory percentiles provide a natural perspective for distinguishing policy behaviors, and works effectively with temporal scheduling. Our analysis reveals that standard optimization substantially sacrifices policy entropy when simultaneously accommodating heterogeneous behaviors, whereas temporal scheduling yields healthier policy evolution dynamics. Experiments across mathematical and general reasoning benchmarks demonstrate consistent improvements, suggesting that temporal scheduling constitutes a promising optimization dimension.