Zona de Optimización de Política Proximal: Maestro en Indicaciones, No en Gradientes

Resumen

La destilación de conocimiento transfiere la competencia de un profesor a un estudiante pequeño, pero es frágil en el régimen de estudiante pequeño: forzar al estudiante a imitar los logits de un profesor mucho más grande lo concentra en los modos más agudos del profesor, perjudicando la generalización en familias de benchmarks más allá del corpus de entrenamiento. El aprendizaje por refuerzo (RL) evita la imitación de logits entrenando con las propias trayectorias del estudiante. Sin embargo, en preguntas donde toda trayectoria falla —obteniendo ventaja cero y siendo descartada silenciosamente— inyectar la respuesta de un profesor más fuerte en el gradiente de política rompe la suposición on-policy e induce deriva. Introducimos Zone of Proximal Policy Optimization (ZPPO), inspirado en la zona de desarrollo próximo de Vygotsky, que mantiene al profesor dentro del prompt en lugar del gradiente de política. En preguntas difíciles, ZPPO construye dos prompts reformulados: una Pregunta con Candidato Binario (BCQ) empareja una respuesta correcta del profesor con una respuesta incorrecta del estudiante como candidatos anonimizados que el estudiante debe discriminar, y una Pregunta con Candidato Negativo (NCQ) agrega las trayectorias erróneas del estudiante en un solo prompt para exponer sus modos de fallo compartidos. Un búfer de repetición de prompts recircula cada pregunta difícil hasta que se gradúa —la precisión media del estudiante en sus trayectorias alcanza la mitad— o es desalojado FIFO por capacidad finita, amplificando BCQ y NCQ dentro de la zona de desarrollo próximo actual del estudiante. En la familia Qwen3.5 con cuatro escalas de estudiante (0.8B–9B) y un profesor de 27B, post-entrenados como modelos de visión-lenguaje y evaluados en un conjunto de 31 benchmarks (16 VLM, 10 LLM, 5 Video), ZPPO supera a la destilación off/on-policy y a GRPO, con las mayores ganancias en la escala más pequeña.

English

Knowledge distillation transfers a teacher's competence to a small student but is brittle in the small-student regime: forcing the student to imitate logits from a much larger teacher concentrates it on the teacher's sharpest modes, hurting generalization on benchmark families beyond the training corpus. Reinforcement learning (RL) avoids logit imitation by training on the student's own rollouts. However, on questions where every rollout fails-yielding zero advantage and being silently discarded-injecting a stronger teacher's response into the policy gradient breaks the on-policy assumption and induces drift. We introduce Zone of Proximal Policy Optimization (ZPPO), inspired by Vygotsky's zone of proximal development, which keeps the teacher inside the prompt rather than the policy gradient. On hard questions, ZPPO constructs two reformulated prompts: a Binary Candidate-included Question (BCQ) pairs one correct teacher response with one incorrect student response as anonymized candidates the student must discriminate, and a Negative Candidate-included Question (NCQ) aggregates the student's wrong rollouts into a single prompt to surface their shared failure modes. A prompt replay buffer recirculates each hard question until it either graduates-the student's mean rollout accuracy on it reaches half- or is FIFO-evicted under finite capacity, amplifying BCQ and NCQ inside the student's current zone of proximal development. On the Qwen3.5 family at four student scales (0.8B-9B) with a 27B teacher, post-trained as vision-language models and evaluated on a 31-benchmark suite (16 VLM, 10 LLM, 5 Video), ZPPO outperforms off/on-policy distillation and GRPO, with the largest gains at the smallest scale.