Niet alleen waar, maar ook wanneer: Temporele planning voor RLVR

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) is een kerntechniek geworden voor de post-training van grote taalmodellen (LLMs). Hoewel beleidsoptimalisatie wordt aangedreven door alle gesamplede tokens onder een globaal uitgezonden scalaire beloning, wordt het heterogene beleidsgedrag dat langs trajecten wordt vertoond grotendeels over het hoofd gezien zonder differentiatie. Bestaande onderzoeken pakken dit aan door krediettoewijzing, waaronder herweging van voordelen op tokenniveau en selectieve tokenoptimalisatie, maar de toewijzingscriteria zijn in principe statisch gedurende de training, wat de veerkrachtige beleidsevolutie beperkt. In dit werk stellen we dat wanneer leersignalen worden gepland net zo belangrijk kan zijn als waar ze over tokens worden toegewezen, en introduceren we de temporele dimensie van het plannen van de krediettoewijzingscriteria gedurende het RLVR-optimalisatieproces. We ontdekken dat het prioriteren van gerichte tokens die worden benadrukt met specifiek beleidsgedrag, en geleidelijk afzwakken naar algemene optimalisatie, leidt tot stabielere en efficiëntere leerdynamieken. Bovendien tonen we aan dat eenvoudige percentielen van trajecten een natuurlijk perspectief bieden voor het onderscheiden van beleidsgedragingen en effectief werken met temporele planning. Onze analyse onthult dat standaardoptimalisatie aanzienlijk beleidsentropie opoffert bij het gelijktijdig accommoderen van heterogeen gedrag, terwijl temporele planning gezondere beleidsevolutiedynamieken oplevert. Experimenten op het gebied van wiskundige en algemene redeneerbenchmarks tonen consistente verbeteringen aan, wat suggereert dat temporele planning een veelbelovende optimalisatiedimensie vormt.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core technique for post-training of Large Language Models (LLMs). While policy optimization is driven by all sampled tokens under a globally broadcast scalar reward, the heterogeneous policy behaviors exhibited along trajectories are largely overlooked without differentiation. Existing works address this by credit allocation, including token-level advantage reweighting, and selective token optimization, however, the allocation criterion are principally stagnant throughout training, limiting resilient policy evolution. In this work, we argue that when learning signals are scheduled can be as important as where they are allocated across tokens, and introduce the temporal dimension that scheduling the credit allocation criteria over the course of RLVR optimization. We find that prioritizing targeted tokens emphasized with specific policy behaviors, and gradually attenuating toward general optimization leads to more stable and efficient learning dynamics. Furthermore, we show that simple trajectory percentiles provide a natural perspective for distinguishing policy behaviors, and works effectively with temporal scheduling. Our analysis reveals that standard optimization substantially sacrifices policy entropy when simultaneously accommodating heterogeneous behaviors, whereas temporal scheduling yields healthier policy evolution dynamics. Experiments across mathematical and general reasoning benchmarks demonstrate consistent improvements, suggesting that temporal scheduling constitutes a promising optimization dimension.