Zona de Otimização de Política Proximal: Professor em Prompts, Não em Gradientes

Resumo

A destilação de conhecimento transfere a competência de um professor para um aluno pequeno, mas é frágil no regime de aluno pequeno: forçar o aluno a imitar logits de um professor muito maior concentra-o nos modos mais agudos do professor, prejudicando a generalização em famílias de benchmarks além do corpus de treinamento. A aprendizagem por reforço (RL) evita a imitação de logits ao treinar com base nos próprios rollouts do aluno. No entanto, em perguntas onde todo rollout falha—gerando vantagem zero e sendo descartado silenciosamente—injetar a resposta de um professor mais forte no gradiente de política quebra a suposição on-policy e induz deriva. Apresentamos a Otimização de Política de Zona Proximal (ZPPO), inspirada na zona de desenvolvimento proximal de Vygotsky, que mantém o professor dentro do prompt em vez do gradiente de política. Em perguntas difíceis, o ZPPO constrói dois prompts reformulados: uma Pergunta com Candidato Binário Incluído (BCQ) emparelha uma resposta correta do professor com uma resposta incorreta do aluno como candidatos anonimizados que o aluno deve discriminar, e uma Pergunta com Candidato Negativo Incluído (NCQ) agrega os rollouts errados do aluno em um único prompt para revelar seus modos de falha compartilhados. Um buffer de reprodução de prompts recircula cada pergunta difícil até que ela se forme—a precisão média dos rollouts do aluno nela atinja metade—ou seja removida por FIFO sob capacidade finita, amplificando BCQ e NCQ dentro da zona de desenvolvimento proximal atual do aluno. Na família Qwen3.5 em quatro escalas de aluno (0,8B-9B) com um professor de 27B, pós-treinados como modelos visão-linguagem e avaliados em um conjunto de 31 benchmarks (16 VLM, 10 LLM, 5 Vídeo), o ZPPO supera a destilação off/on-policy e o GRPO, com os maiores ganhos na menor escala.

English

Knowledge distillation transfers a teacher's competence to a small student but is brittle in the small-student regime: forcing the student to imitate logits from a much larger teacher concentrates it on the teacher's sharpest modes, hurting generalization on benchmark families beyond the training corpus. Reinforcement learning (RL) avoids logit imitation by training on the student's own rollouts. However, on questions where every rollout fails-yielding zero advantage and being silently discarded-injecting a stronger teacher's response into the policy gradient breaks the on-policy assumption and induces drift. We introduce Zone of Proximal Policy Optimization (ZPPO), inspired by Vygotsky's zone of proximal development, which keeps the teacher inside the prompt rather than the policy gradient. On hard questions, ZPPO constructs two reformulated prompts: a Binary Candidate-included Question (BCQ) pairs one correct teacher response with one incorrect student response as anonymized candidates the student must discriminate, and a Negative Candidate-included Question (NCQ) aggregates the student's wrong rollouts into a single prompt to surface their shared failure modes. A prompt replay buffer recirculates each hard question until it either graduates-the student's mean rollout accuracy on it reaches half- or is FIFO-evicted under finite capacity, amplifying BCQ and NCQ inside the student's current zone of proximal development. On the Qwen3.5 family at four student scales (0.8B-9B) with a 27B teacher, post-trained as vision-language models and evaluated on a 31-benchmark suite (16 VLM, 10 LLM, 5 Video), ZPPO outperforms off/on-policy distillation and GRPO, with the largest gains at the smallest scale.