Nahe-Zukunfts-Politikoptimierung

Zusammenfassung

Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) hat sich zu einem zentralen Rezept für das Nachtraining entwickelt. Die Einführung geeigneter Off-Policy-Trajektorien in die On-Policy-Exploration beschleunigt die RLVR-Konvergenz und erhöht die Leistungsobergrenze, doch die Suche nach einer Quelle für solche Trajektorien bleibt die größte Herausforderung. Bestehende Methoden mit gemischten Politiken importieren entweder Trajektorien von externen Lehrern (hohe Qualität, aber distributionell fern) oder verwenden vergangene Trainingstrajektorien erneut (nah, aber in der Qualität begrenzt). Keine davon erfüllt gleichzeitig die für die Maximierung des effektiven Lernsignals S = Q/V erforderlichen Bedingungen „stark genug“ (höheres Q, mehr neues Wissen zu lernen) und „nah genug“ (niedrigeres V, leichter zu absorbieren). Wir schlagen Near-Future Policy Optimization (NPO) vor, ein einfaches Schema mit gemischten Politiken, das von der eigenen nahe-zukünftigen Version einer Policy lernt: Ein späterer Checkpoint aus demselben Trainingslauf ist eine natürliche Quelle für Hilfstrajektorien, die sowohl stärker als die aktuelle Policy als auch näher als jede externe Quelle ist und so direkt die Trajektorienqualität gegen die Varianzkosten abwägt. Wir validieren NPO durch zwei manuelle Interventionen – Bootstrapping in frühen Phasen und das Durchbrechen von Plateaus in späten Phasen – und schlagen weiterhin AutoNPO vor, eine adaptive Variante, die Interventionen automatisch basierend auf Online-Trainingssignalen auslöst und den Guide-Checkpoint auswählt, der S maximiert. Bei Qwen3-VL-8B-Instruct mit GRPO verbessert NPO die durchschnittliche Leistung von 57,88 auf 62,84, und AutoNPO steigert sie auf 63,15, erhöht somit die endgültige Leistungsobergrenze und beschleunigt gleichzeitig die Konvergenz.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core post-training recipe. Introducing suitable off-policy trajectories into on-policy exploration accelerates RLVR convergence and raises the performance ceiling, yet finding a source of such trajectories remains the key challenge. Existing mixed-policy methods either import trajectories from external teachers (high-quality but distributionally far) or replay past training trajectories (close but capped in quality), and neither simultaneously satisfies the strong enough (higher Q , more new knowledge to learn) and close enough (lower V , more readily absorbed) conditions required to maximize the effective learning signal S = Q/V. We propose Near-Future Policy Optimization (NPO), a simple mixed-policy scheme that learns from a policy's own near-future self: a later checkpoint from the same training run is a natural source of auxiliary trajectories that is both stronger than the current policy and closer than any external source, directly balancing trajectory quality against variance cost. We validate NPO through two manual interventions, early-stage bootstrapping and late-stage plateau breakthrough, and further propose AutoNPO,an adaptive variant that automatically triggers interventions from online training signals and selects the guide checkpoint that maximizes S. On Qwen3-VL-8B-Instruct with GRPO, NPO improves average performance from 57.88 to 62.84, and AutoNPO pushes it to 63.15, raising the final performance ceiling while accelerating convergence.