Ottimizzazione delle Politiche a Breve Termine

Abstract

L'apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato una ricetta fondamentale per il post-addestramento. L'introduzione di traiettorie off-policy adeguate nell'esplorazione on-policy accelera la convergenza dell'RLVR e innalza il limite prestazionale, ma individuare una fonte di tali traiettorie rimane la sfida principale. I metodi a politica mista esistenti importano traiettorie da insegnanti esterni (di alta qualità ma distribuzionalmente distanti) o riutilizzano traiettorie di addestramento passate (vicine ma limitate in qualità), e nessuno dei due soddisfa simultaneamente le condizioni di essere sufficientemente forte (Q più alto, più nuova conoscenza da apprendere) e sufficientemente vicina (V più basso, più facilmente assimilabile) richieste per massimizzare il segnale di apprendimento efficace S = Q/V. Proponiamo la Near-Future Policy Optimization (NPO), uno schema a politica mista semplice che apprende dal sé futuro prossimo di una politica: un checkpoint successivo dello stesso ciclo di addestramento è una fonte naturale di traiettorie ausiliarie che è sia più forte della politica corrente che più vicina di qualsiasi fonte esterna, bilanciando direttamente la qualità della traiettoria con il costo della varianza. Convalidiamo la NPO attraverso due interventi manuali, il bootstrapping nella fase iniziale e il superamento dello stallo nella fase avanzata, e proponiamo ulteriormente AutoNPO, una variante adattiva che attiva automaticamente gli interventi dai segnali di addestramento online e seleziona il checkpoint guida che massimizza S. Su Qwen3-VL-8B-Instruct con GRPO, la NPO migliora la performance media da 57.88 a 62.84, e AutoNPO la spinge a 63.15, innalzando il limite prestazionale finale mentre accelera la convergenza.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core post-training recipe. Introducing suitable off-policy trajectories into on-policy exploration accelerates RLVR convergence and raises the performance ceiling, yet finding a source of such trajectories remains the key challenge. Existing mixed-policy methods either import trajectories from external teachers (high-quality but distributionally far) or replay past training trajectories (close but capped in quality), and neither simultaneously satisfies the strong enough (higher Q , more new knowledge to learn) and close enough (lower V , more readily absorbed) conditions required to maximize the effective learning signal S = Q/V. We propose Near-Future Policy Optimization (NPO), a simple mixed-policy scheme that learns from a policy's own near-future self: a later checkpoint from the same training run is a natural source of auxiliary trajectories that is both stronger than the current policy and closer than any external source, directly balancing trajectory quality against variance cost. We validate NPO through two manual interventions, early-stage bootstrapping and late-stage plateau breakthrough, and further propose AutoNPO,an adaptive variant that automatically triggers interventions from online training signals and selects the guide checkpoint that maximizes S. On Qwen3-VL-8B-Instruct with GRPO, NPO improves average performance from 57.88 to 62.84, and AutoNPO pushes it to 63.15, raising the final performance ceiling while accelerating convergence.