Zone der proximalen Politikanpassung: Lehrer in Prompts, nicht Gradienten

Zusammenfassung

Wissensdestillation überträgt die Kompetenz eines Lehrers auf einen kleinen Schüler, ist jedoch im Bereich kleiner Schüler anfällig: Wenn der Schüler gezwungen wird, Logits von einem viel größeren Lehrer zu imitieren, konzentriert er sich auf die schärfsten Modi des Lehrers, was die Generalisierung auf Benchmark-Familien außerhalb des Trainingskorpus beeinträchtigt. Bestärkendes Lernen (RL) vermeidet die Logit-Imitation, indem es auf den eigenen Rollouts des Schülers trainiert. Bei Fragen, bei denen jedoch jeder Rollout fehlschlägt – was zu einem Nullvorteil führt und stillschweigend verworfen wird –, verstößt das Einfügen einer stärkeren Lehrerantwort in den Policy-Gradienten gegen die On-Policy-Annahme und verursacht eine Drift. Wir führen die Zone of Proximal Policy Optimization (ZPPO) ein, inspiriert von Vygotskys Zone der nächsten Entwicklung, die den Lehrer im Prompt und nicht im Policy-Gradienten hält. Bei schwierigen Fragen erstellt ZPPO zwei neu formulierte Prompts: Eine Binary Candidate-included Question (BCQ) paart eine korrekte Lehrerantwort mit einer falschen Schülerantwort als anonymisierte Kandidaten, die der Schüler unterscheiden muss, und eine Negative Candidate-included Question (NCQ) fasst die falschen Rollouts des Schülers in einem einzigen Prompt zusammen, um deren gemeinsame Fehlermodi sichtbar zu machen. Ein Prompt-Replay-Puffer zirkuliert jede schwierige Frage so lange, bis sie entweder abschließt – die durchschnittliche Rollout-Genauigkeit des Schülers erreicht die Hälfte – oder bei begrenzter Kapazität nach dem FIFO-Prinzip entfernt wird, wodurch BCQ und NCQ innerhalb der aktuellen Zone der nächsten Entwicklung des Schülers verstärkt werden. In der Qwen3.5-Familie mit vier Schülergrößen (0,8B–9B) und einem 27B-Lehrer, die als Vision-Language-Modelle nachtrainiert und auf einer 31-Benchmark-Suite (16 VLM, 10 LLM, 5 Video) evaluiert wurden, übertrifft ZPPO die Off/On-Policy-Destillation und GRPO, wobei die größten Verbesserungen bei der kleinsten Größe erzielt werden.

English

Knowledge distillation transfers a teacher's competence to a small student but is brittle in the small-student regime: forcing the student to imitate logits from a much larger teacher concentrates it on the teacher's sharpest modes, hurting generalization on benchmark families beyond the training corpus. Reinforcement learning (RL) avoids logit imitation by training on the student's own rollouts. However, on questions where every rollout fails-yielding zero advantage and being silently discarded-injecting a stronger teacher's response into the policy gradient breaks the on-policy assumption and induces drift. We introduce Zone of Proximal Policy Optimization (ZPPO), inspired by Vygotsky's zone of proximal development, which keeps the teacher inside the prompt rather than the policy gradient. On hard questions, ZPPO constructs two reformulated prompts: a Binary Candidate-included Question (BCQ) pairs one correct teacher response with one incorrect student response as anonymized candidates the student must discriminate, and a Negative Candidate-included Question (NCQ) aggregates the student's wrong rollouts into a single prompt to surface their shared failure modes. A prompt replay buffer recirculates each hard question until it either graduates-the student's mean rollout accuracy on it reaches half- or is FIFO-evicted under finite capacity, amplifying BCQ and NCQ inside the student's current zone of proximal development. On the Qwen3.5 family at four student scales (0.8B-9B) with a 27B teacher, post-trained as vision-language models and evaluated on a 31-benchmark suite (16 VLM, 10 LLM, 5 Video), ZPPO outperforms off/on-policy distillation and GRPO, with the largest gains at the smallest scale.