Optimización de Políticas a Corto Plazo

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en una receta fundamental para el post-entrenamiento. La introducción de trayectorias *off-policy* adecuadas en la exploración *on-policy* acelera la convergencia del RLVR y eleva el techo de rendimiento, aunque encontrar una fuente de dichas trayectorias sigue siendo el principal desafío. Los métodos de políticas mixtas existentes importan trayectorias de profesores externos (de alta calidad pero distribucionalmente lejanos) o reutilizan trayectorias de entrenamiento pasadas (cercanas pero limitadas en calidad); ninguno satisface simultáneamente las condiciones de ser lo suficientemente fuerte (Q más alta, más conocimiento nuevo por aprender) y lo suficientemente cercana (V más baja, más fácilmente asimilable) requeridas para maximizar la señal de aprendizaje efectiva S = Q/V. Proponemos la Optimización de Políticas de Futuro Cercano (NPO), un esquema de políticas mixtas simple que aprende del yo futuro cercano de una política: un punto de control posterior del mismo proceso de entrenamiento es una fuente natural de trayectorias auxiliares que es tanto más fuerte que la política actual como más cercana que cualquier fuente externa, equilibrando directamente la calidad de la trayectoria contra el coste de varianza. Validamos NPO mediante dos intervenciones manuales, el arranque en etapas tempranas y la superación de mesetas en etapas tardías, y además proponemos AutoNPO, una variante adaptativa que activa automáticamente las intervenciones a partir de señales de entrenamiento en línea y selecciona el punto de control guía que maximiza S. En Qwen3-VL-8B-Instruct con GRPO, NPO mejora el rendimiento promedio de 57.88 a 62.84, y AutoNPO lo eleva a 63.15, aumentando el techo de rendimiento final mientras acelera la convergencia.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core post-training recipe. Introducing suitable off-policy trajectories into on-policy exploration accelerates RLVR convergence and raises the performance ceiling, yet finding a source of such trajectories remains the key challenge. Existing mixed-policy methods either import trajectories from external teachers (high-quality but distributionally far) or replay past training trajectories (close but capped in quality), and neither simultaneously satisfies the strong enough (higher Q , more new knowledge to learn) and close enough (lower V , more readily absorbed) conditions required to maximize the effective learning signal S = Q/V. We propose Near-Future Policy Optimization (NPO), a simple mixed-policy scheme that learns from a policy's own near-future self: a later checkpoint from the same training run is a natural source of auxiliary trajectories that is both stronger than the current policy and closer than any external source, directly balancing trajectory quality against variance cost. We validate NPO through two manual interventions, early-stage bootstrapping and late-stage plateau breakthrough, and further propose AutoNPO,an adaptive variant that automatically triggers interventions from online training signals and selects the guide checkpoint that maximizes S. On Qwen3-VL-8B-Instruct with GRPO, NPO improves average performance from 57.88 to 62.84, and AutoNPO pushes it to 63.15, raising the final performance ceiling while accelerating convergence.