Beleidsoptimalisatie op Korte Termijn

Samenvatting

Versterkend leren met verifieerbare beloningen (RLVR) is een kernrecept geworden voor nafining. Het introduceren van geschikte off-policy trajecten in on-policy exploratie versnelt de RLVR-convergentie en verhoogt het prestatieplafond, maar het vinden van een bron van dergelijke trajecten blijft de grootste uitdaging. Bestaande mixed-policy methodes importeren trajecten van externe leraren (hoogwaardig maar distributioneel ver weg) of herhalen oude trainings trajecten (dichtbij maar beperkt in kwaliteit), en geen van beide voldoet gelijktijdig aan de vereiste voorwaarden van sterk genoeg (hogere Q, meer nieuwe kennis om te leren) en dichtbij genoeg (lagere V, makkelijker opneembaar) die nodig zijn om het effectieve leersignaal S = Q/V te maximaliseren. Wij stellen Near-Future Policy Optimization (NPO) voor, een eenvoudig mixed-policy schema dat leert van het eigen nabije toekomstige zelf van een policy: een latere checkpoint uit dezelfde trainingsrun is een natuurlijke bron van hulptrajecten die zowel sterker is dan het huidige beleid als dichterbij dan welke externe bron ook, en die direct trajectkwaliteit afweegt tegen variantiekosten. We valideren NPO via twee handmatige interventies, bootstrapping in de vroege fase en doorbraak van plateaus in de late fase, en stellen verder AutoNPO voor, een adaptieve variant die automatisch interventies activeert op basis van online trainingssignalen en de gids-checkpoint selecteert die S maximaliseert. Op Qwen3-VL-8B-Instruct met GRPO verbetert NPO de gemiddelde prestatie van 57.88 naar 62.84, en AutoNPO duwt deze naar 63.15, waardoor het uiteindelijke prestatieplafond wordt verhoogd terwijl de convergentie wordt versneld.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core post-training recipe. Introducing suitable off-policy trajectories into on-policy exploration accelerates RLVR convergence and raises the performance ceiling, yet finding a source of such trajectories remains the key challenge. Existing mixed-policy methods either import trajectories from external teachers (high-quality but distributionally far) or replay past training trajectories (close but capped in quality), and neither simultaneously satisfies the strong enough (higher Q , more new knowledge to learn) and close enough (lower V , more readily absorbed) conditions required to maximize the effective learning signal S = Q/V. We propose Near-Future Policy Optimization (NPO), a simple mixed-policy scheme that learns from a policy's own near-future self: a later checkpoint from the same training run is a natural source of auxiliary trajectories that is both stronger than the current policy and closer than any external source, directly balancing trajectory quality against variance cost. We validate NPO through two manual interventions, early-stage bootstrapping and late-stage plateau breakthrough, and further propose AutoNPO,an adaptive variant that automatically triggers interventions from online training signals and selects the guide checkpoint that maximizes S. On Qwen3-VL-8B-Instruct with GRPO, NPO improves average performance from 57.88 to 62.84, and AutoNPO pushes it to 63.15, raising the final performance ceiling while accelerating convergence.