Оптимизация политики в ближайшей перспективе

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало ключевым методом пост-обучения. Введение подходящих внеполитичных траекторий в он-политичное исследование ускоряет сходимость RLVR и повышает потолок производительности, однако поиск источника таких траекторий остаётся основной проблемой. Существующие методы смешанной политики либо импортируют траектории от внешних учителей (высокое качество, но далёкое распределение), либо повторно используют прошлые обучающие траектории (близкие, но ограниченные по качеству), и ни один из них одновременно не удовлетворяет необходимым условиям «достаточно сильной» (высокий Q, больше новых знаний для усвоения) и «достаточно близкой» (низкий V, легче усваивается) траектории для максимизации эффективного сигнала обучения S = Q/V. Мы предлагаем Оптимизацию политики ближайшего будущего (NPO) — простую схему смешанной политики, которая учится на траекториях собственного «я» из ближайшего будущего: более поздняя контрольная точка из того же прогона обучения естественным образом служит источником вспомогательных траекторий, которые одновременно сильнее текущей политики и ближе любого внешнего источника, напрямую балансируя качество траекторий и стоимость дисперсии. Мы проверяем NPO через два ручных вмешательства — начальную бутстраппизацию и преодоление плато на поздних стадиях, — а также предлагаем AutoNPO, адаптивный вариант, который автоматически запускает вмешательства на основе онлайн-сигналов обучения и выбирает контрольную точку-гида, максимизирующую S. На модели Qwen3-VL-8B-Instruct с GRPO NPO улучшает среднюю производительность с 57.88 до 62.84, а AutoNPO повышает её до 63.15, поднимая итоговый потолок производительности при одновременном ускорении сходимости.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core post-training recipe. Introducing suitable off-policy trajectories into on-policy exploration accelerates RLVR convergence and raises the performance ceiling, yet finding a source of such trajectories remains the key challenge. Existing mixed-policy methods either import trajectories from external teachers (high-quality but distributionally far) or replay past training trajectories (close but capped in quality), and neither simultaneously satisfies the strong enough (higher Q , more new knowledge to learn) and close enough (lower V , more readily absorbed) conditions required to maximize the effective learning signal S = Q/V. We propose Near-Future Policy Optimization (NPO), a simple mixed-policy scheme that learns from a policy's own near-future self: a later checkpoint from the same training run is a natural source of auxiliary trajectories that is both stronger than the current policy and closer than any external source, directly balancing trajectory quality against variance cost. We validate NPO through two manual interventions, early-stage bootstrapping and late-stage plateau breakthrough, and further propose AutoNPO,an adaptive variant that automatically triggers interventions from online training signals and selects the guide checkpoint that maximizes S. On Qwen3-VL-8B-Instruct with GRPO, NPO improves average performance from 57.88 to 62.84, and AutoNPO pushes it to 63.15, raising the final performance ceiling while accelerating convergence.