Optimisation des politiques à court terme

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une méthode fondamentale de post-entraînement. L'introduction de trajectoires hors politique appropriées dans l'exploration sur politique accélère la convergence du RLVR et relève le plafond de performance, mais trouver une source de telles trajectoires reste le principal défi. Les méthodes à politique mixte existantes importent soit des trajectoires de professeurs externes (de haute qualité mais distributionnellement éloignées), soit rejouent des trajectoires d'entraînement passées (proches mais limitées en qualité), et aucune ne satisfait simultanément les conditions « suffisamment forte » (Q plus élevé, plus de nouvelles connaissances à apprendre) et « suffisamment proche » (V plus bas, plus facilement absorbée) requises pour maximiser le signal d'apprentissage effectif S = Q/V. Nous proposons l'Optimisation par Politique du Futur Proche (NPO), un schéma à politique mixte simple qui apprend du futur proche d'une politique elle-même : un point de contrôle ultérieur de la même session d'entraînement est une source naturelle de trajectoires auxiliaires à la fois plus forte que la politique actuelle et plus proche que toute source externe, équilibrant directement la qualité des trajectoires contre le coût de variance. Nous validons NPO via deux interventions manuelles, l'amorçage en phase initiale et la rupture de plateau en phase finale, et proposons en outre AutoNPO, une variante adaptative qui déclenche automatiquement les interventions à partir des signaux d'entraînement en ligne et sélectionne le point de contrôle guide qui maximise S. Sur Qwen3-VL-8B-Instruct avec GRPO, NPO améliore la performance moyenne de 57,88 à 62,84, et AutoNPO la porte à 63,15, relevant le plafond de performance final tout en accélérant la convergence.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core post-training recipe. Introducing suitable off-policy trajectories into on-policy exploration accelerates RLVR convergence and raises the performance ceiling, yet finding a source of such trajectories remains the key challenge. Existing mixed-policy methods either import trajectories from external teachers (high-quality but distributionally far) or replay past training trajectories (close but capped in quality), and neither simultaneously satisfies the strong enough (higher Q , more new knowledge to learn) and close enough (lower V , more readily absorbed) conditions required to maximize the effective learning signal S = Q/V. We propose Near-Future Policy Optimization (NPO), a simple mixed-policy scheme that learns from a policy's own near-future self: a later checkpoint from the same training run is a natural source of auxiliary trajectories that is both stronger than the current policy and closer than any external source, directly balancing trajectory quality against variance cost. We validate NPO through two manual interventions, early-stage bootstrapping and late-stage plateau breakthrough, and further propose AutoNPO,an adaptive variant that automatically triggers interventions from online training signals and selects the guide checkpoint that maximizes S. On Qwen3-VL-8B-Instruct with GRPO, NPO improves average performance from 57.88 to 62.84, and AutoNPO pushes it to 63.15, raising the final performance ceiling while accelerating convergence.