Otimização de Políticas de Curto Prazo

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma receita central de pós-treinamento. A introdução de trajetórias off-policy adequadas na exploração on-policy acelera a convergência do RLVR e eleva o limite de desempenho, mas encontrar uma fonte para tais trajetórias permanece o principal desafio. Os métodos de política mista existentes ou importam trajetórias de professores externos (de alta qualidade, mas distribucionalmente distantes) ou repetem trajetórias de treinamento passadas (próximas, mas com qualidade limitada), e nenhum deles satisfaz simultaneamente as condições "suficientemente forte" (Q mais alto, mais novo conhecimento para aprender) e "suficientemente próximo" (V mais baixo, mais facilmente absorvido) necessárias para maximizar o sinal de aprendizagem efetivo S = Q/V. Propomos a Otimização de Política de Futuro Próximo (NPO), um esquema simples de política mista que aprende com o "eu" de futuro próximo da própria política: um *checkpoint* posterior do mesmo processo de treinamento é uma fonte natural de trajetórias auxiliares que é simultaneamente mais forte que a política atual e mais próxima que qualquer fonte externa, equilibrando diretamente a qualidade da trajetória contra o custo de variância. Validamos a NPO através de duas intervenções manuais, *bootstrapping* em estágio inicial e superação de platô em estágio tardio, e propomos ainda a AutoNPO, uma variante adaptativa que aciona automaticamente intervenções a partir de sinais de treinamento online e seleciona o *checkpoint* guia que maximiza S. No Qwen3-VL-8B-Instruct com GRPO, a NPO melhora o desempenho médio de 57.88 para 62.84, e a AutoNPO eleva para 63.15, aumentando o limite de desempenho final enquanto acelera a convergência.

English

Reinforcement learning with verifiable rewards (RLVR) has become a core post-training recipe. Introducing suitable off-policy trajectories into on-policy exploration accelerates RLVR convergence and raises the performance ceiling, yet finding a source of such trajectories remains the key challenge. Existing mixed-policy methods either import trajectories from external teachers (high-quality but distributionally far) or replay past training trajectories (close but capped in quality), and neither simultaneously satisfies the strong enough (higher Q , more new knowledge to learn) and close enough (lower V , more readily absorbed) conditions required to maximize the effective learning signal S = Q/V. We propose Near-Future Policy Optimization (NPO), a simple mixed-policy scheme that learns from a policy's own near-future self: a later checkpoint from the same training run is a natural source of auxiliary trajectories that is both stronger than the current policy and closer than any external source, directly balancing trajectory quality against variance cost. We validate NPO through two manual interventions, early-stage bootstrapping and late-stage plateau breakthrough, and further propose AutoNPO,an adaptive variant that automatically triggers interventions from online training signals and selects the guide checkpoint that maximizes S. On Qwen3-VL-8B-Instruct with GRPO, NPO improves average performance from 57.88 to 62.84, and AutoNPO pushes it to 63.15, raising the final performance ceiling while accelerating convergence.