Nicht nur wo, sondern wann: Zeitliche Planung für RLVR

Zusammenfassung

Bestärkendes Lernen mit überprüfbaren Belohnungen (RLVR) hat sich zu einer Kernmethode für das Post-Training großer Sprachmodelle (Large Language Models, LLMs) entwickelt. Während die Politikoptimierung durch alle abgetasteten Token unter einer global ausgestrahlten skalaren Belohnung angetrieben wird, bleiben die heterogenen Politikverhalten entlang von Trajektorien weitgehend unbeachtet und ohne Differenzierung. Bestehende Arbeiten adressieren dies durch Kreditzuweisung, darunter die Neugewichtung von Token-Vorteilen und die selektive Tokenoptimierung; allerdings sind die Kriterien für die Zuweisung während des Trainings prinzipiell statisch, was eine anpassungsfähige Politikentwicklung einschränkt. In dieser Arbeit argumentieren wir, dass der Zeitpunkt, zu dem Lernsigmente zugewiesen werden, ebenso wichtig sein kann wie der Ort ihrer Zuweisung auf Token, und führen die zeitliche Dimension ein, die die Kriterien der Kreditzuweisung im Verlauf der RLVR-Optimierung plant. Wir stellen fest, dass die Priorisierung gezielter Token, die mit spezifischen Politikverhalten hervorgehoben werden, sowie die allmähliche Abschwächung hin zu einer allgemeinen Optimierung zu stabileren und effizienteren Lerndynamiken führt. Darüber hinaus zeigen wir, dass einfache Trajektorienperzentile eine natürliche Perspektive zur Unterscheidung von Politikverhalten bieten und in Verbindung mit zeitlicher Planung effektiv funktionieren. Unsere Analyse offenbart, dass die Standardoptimierung die Politikentropie erheblich reduziert, wenn gleichzeitig heterogene Verhalten berücksichtigt werden, während zeitliche Planung gesündere Politikentwicklungsdynamiken ermöglicht. Experimente mit mathematischen und allgemeinen Reasoning-Benchmarks zeigen durchgängige Verbesserungen und legen nahe, dass zeitliche Planung eine vielversprechende Optimierungsdimension darstellt.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core technique for post-training of Large Language Models (LLMs). While policy optimization is driven by all sampled tokens under a globally broadcast scalar reward, the heterogeneous policy behaviors exhibited along trajectories are largely overlooked without differentiation. Existing works address this by credit allocation, including token-level advantage reweighting, and selective token optimization, however, the allocation criterion are principally stagnant throughout training, limiting resilient policy evolution. In this work, we argue that when learning signals are scheduled can be as important as where they are allocated across tokens, and introduce the temporal dimension that scheduling the credit allocation criteria over the course of RLVR optimization. We find that prioritizing targeted tokens emphasized with specific policy behaviors, and gradually attenuating toward general optimization leads to more stable and efficient learning dynamics. Furthermore, we show that simple trajectory percentiles provide a natural perspective for distinguishing policy behaviors, and works effectively with temporal scheduling. Our analysis reveals that standard optimization substantially sacrifices policy entropy when simultaneously accommodating heterogeneous behaviors, whereas temporal scheduling yields healthier policy evolution dynamics. Experiments across mathematical and general reasoning benchmarks demonstrate consistent improvements, suggesting that temporal scheduling constitutes a promising optimization dimension.