No solo dónde, sino cuándo: Programación temporal para RLVR

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en una técnica central para el post-entrenamiento de modelos de lenguaje grandes (LLMs). Si bien la optimización de políticas está impulsada por todos los tokens muestreados bajo una recompensa escalar transmitida globalmente, los comportamientos de política heterogéneos que se manifiestan a lo largo de las trayectorias son en gran medida ignorados sin diferenciación. Los trabajos existentes abordan esto mediante la asignación de crédito, incluyendo la reponderación de ventajas a nivel de token y la optimización selectiva de tokens; sin embargo, los criterios de asignación permanecen principalmente estáticos durante todo el entrenamiento, lo que limita la evolución resiliente de la política. En este trabajo, sostenemos que *cuándo* se programan las señales de aprendizaje puede ser tan importante como *dónde* se asignan entre los tokens, e introducimos la dimensión temporal que programa los criterios de asignación de crédito a lo largo del proceso de optimización RLVR. Descubrimos que priorizar tokens específicos enfatizados con comportamientos de política concretos, y atenuar gradualmente hacia una optimización general, conduce a dinámicas de aprendizaje más estables y eficientes. Además, mostramos que los percentiles simples de trayectoria proporcionan una perspectiva natural para distinguir comportamientos de política, y funcionan eficazmente con la programación temporal. Nuestro análisis revela que la optimización estándar sacrifica sustancialmente la entropía de la política al acomodar simultáneamente comportamientos heterogéneos, mientras que la programación temporal produce dinámicas de evolución de política más saludables. Los experimentos en benchmarks de razonamiento matemático y general demuestran mejoras consistentes, lo que sugiere que la programación temporal constituye una dimensión de optimización prometedora.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core technique for post-training of Large Language Models (LLMs). While policy optimization is driven by all sampled tokens under a globally broadcast scalar reward, the heterogeneous policy behaviors exhibited along trajectories are largely overlooked without differentiation. Existing works address this by credit allocation, including token-level advantage reweighting, and selective token optimization, however, the allocation criterion are principally stagnant throughout training, limiting resilient policy evolution. In this work, we argue that when learning signals are scheduled can be as important as where they are allocated across tokens, and introduce the temporal dimension that scheduling the credit allocation criteria over the course of RLVR optimization. We find that prioritizing targeted tokens emphasized with specific policy behaviors, and gradually attenuating toward general optimization leads to more stable and efficient learning dynamics. Furthermore, we show that simple trajectory percentiles provide a natural perspective for distinguishing policy behaviors, and works effectively with temporal scheduling. Our analysis reveals that standard optimization substantially sacrifices policy entropy when simultaneously accommodating heterogeneous behaviors, whereas temporal scheduling yields healthier policy evolution dynamics. Experiments across mathematical and general reasoning benchmarks demonstrate consistent improvements, suggesting that temporal scheduling constitutes a promising optimization dimension.