Zone van Proximal Policy Optimization: Leraar in Prompts, Niet in Gradiënten

Samenvatting

Kennisdistillatie draagt de competentie van een leraar over op een kleine student, maar is breekbaar in het kleine-studentenregime: door de student te dwingen logits van een veel grotere leraar te imiteren, concentreert dit zich op de scherpste modi van de leraar, wat de generalisatie op benchmarkfamilies buiten de trainingscorpus schaadt. Reinforcement learning (RL) vermijdt logitimitatie door te trainen op de eigen rollouts van de student. Bij vragen waar elke rollout faalt – wat resulteert in nulvoordeel en stilzwijgend wordt genegeerd – doorbreekt het injecteren van het antwoord van een sterkere leraar in de beleidsgradiënt de on-policy-aanname en veroorzaakt drift. We introduceren Zone of Proximal Policy Optimization (ZPPO), geïnspireerd door Vygotsky's zone van de naaste ontwikkeling, die de leraar in de prompt houdt in plaats van in de beleidsgradiënt. Bij moeilijke vragen construeert ZPPO twee herformuleerde prompts: een Binary Candidate-included Question (BCQ) koppelt één correct lerarenantwoord aan één incorrect studentenantwoord als geanonimiseerde kandidaten waar de student onderscheid tussen moet maken, en een Negative Candidate-included Question (NCQ) verzamelt de foute rollouts van de student in één prompt om hun gedeelde faalmodi zichtbaar te maken. Een prompt replay-buffer hercirculeert elke moeilijke vraag totdat deze afstudeert – de gemiddelde rollout-nauwkeurigheid van de student bereikt de helft – of FIFO wordt verwijderd onder een eindige capaciteit, wat BCQ en NCQ versterkt binnen de huidige zone van naaste ontwikkeling van de student. Op de Qwen3.5-familie bij vier studentschalen (0,8B-9B) met een 27B-leraar, post-getraind als visie-taalmodellen en geëvalueerd op een suite van 31 benchmarks (16 VLM, 10 LLM, 5 Video), presteert ZPPO beter dan off-policy- en on-policy-distillatie en GRPO, met de grootste winsten op de kleinste schaal.

English

Knowledge distillation transfers a teacher's competence to a small student but is brittle in the small-student regime: forcing the student to imitate logits from a much larger teacher concentrates it on the teacher's sharpest modes, hurting generalization on benchmark families beyond the training corpus. Reinforcement learning (RL) avoids logit imitation by training on the student's own rollouts. However, on questions where every rollout fails-yielding zero advantage and being silently discarded-injecting a stronger teacher's response into the policy gradient breaks the on-policy assumption and induces drift. We introduce Zone of Proximal Policy Optimization (ZPPO), inspired by Vygotsky's zone of proximal development, which keeps the teacher inside the prompt rather than the policy gradient. On hard questions, ZPPO constructs two reformulated prompts: a Binary Candidate-included Question (BCQ) pairs one correct teacher response with one incorrect student response as anonymized candidates the student must discriminate, and a Negative Candidate-included Question (NCQ) aggregates the student's wrong rollouts into a single prompt to surface their shared failure modes. A prompt replay buffer recirculates each hard question until it either graduates-the student's mean rollout accuracy on it reaches half- or is FIFO-evicted under finite capacity, amplifying BCQ and NCQ inside the student's current zone of proximal development. On the Qwen3.5 family at four student scales (0.8B-9B) with a 27B teacher, post-trained as vision-language models and evaluated on a 31-benchmark suite (16 VLM, 10 LLM, 5 Video), ZPPO outperforms off/on-policy distillation and GRPO, with the largest gains at the smallest scale.