ChatPaper.aiChatPaper

Zone d'optimisation de la politique proximale : l'enseignant dans les prompts, pas dans les gradients

Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

June 16, 2026
Auteurs: Byung-Kwan Lee, Ximing Lu, Shizhe Diao, Minki Kang, Saurav Muralidharan, Karan Sapra, Andrew Tao, Pavlo Molchanov, Yejin Choi, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI

Résumé

La distillation de connaissances transfère la compétence d'un enseignant à un petit élève, mais elle est fragile dans le régime des petits élèves : forcer l'élève à imiter les logits d'un enseignant beaucoup plus grand le concentre sur les modes les plus marqués de l'enseignant, ce qui nuit à la généralisation sur des familles de références au-delà du corpus d'entraînement. L'apprentissage par renforcement (RL) évite l'imitation des logits en s'entraînant sur les propres trajectoires de l'élève. Cependant, sur les questions où chaque trajectoire échoue — produisant un avantage nul et étant silencieusement écartée — injecter la réponse d'un enseignant plus fort dans le gradient de politique rompt l'hypothèse on-policy et induit une dérive. Nous introduisons l'Optimisation de la Politique par Zone Proximale (ZPPO), inspirée de la zone proximale de développement de Vygotsky, qui maintient l'enseignant dans le prompt plutôt que dans le gradient de politique. Sur les questions difficiles, ZPPO construit deux prompts reformulés : une Question avec Candidat Binaire (BCQ) associe une réponse correcte de l'enseignant à une réponse incorrecte de l'élève sous forme de candidats anonymisés que l'élève doit discriminer, et une Question avec Candidat Négatif (NCQ) agrège les mauvaises trajectoires de l'élève en un seul prompt pour exposer leurs modes d'échec communs. Un tampon de rejeu des prompts remet en circulation chaque question difficile jusqu'à ce qu'elle soit soit diplômée — la précision moyenne des trajectoires de l'élève atteint la moitié — soit évincée selon la politique FIFO sous capacité finie, amplifiant BCQ et NCQ dans la zone proximale de développement actuelle de l'élève. Sur la famille Qwen3.5 à quatre échelles d'élève (0,8B-9B) avec un enseignant de 27B, post-entraînés en tant que modèles vision-langage et évalués sur une suite de 31 références (16 VLM, 10 LLM, 5 Vidéo), ZPPO surpasse la distillation on/off-policy et GRPO, avec les gains les plus importants à la plus petite échelle.
English
Knowledge distillation transfers a teacher's competence to a small student but is brittle in the small-student regime: forcing the student to imitate logits from a much larger teacher concentrates it on the teacher's sharpest modes, hurting generalization on benchmark families beyond the training corpus. Reinforcement learning (RL) avoids logit imitation by training on the student's own rollouts. However, on questions where every rollout fails-yielding zero advantage and being silently discarded-injecting a stronger teacher's response into the policy gradient breaks the on-policy assumption and induces drift. We introduce Zone of Proximal Policy Optimization (ZPPO), inspired by Vygotsky's zone of proximal development, which keeps the teacher inside the prompt rather than the policy gradient. On hard questions, ZPPO constructs two reformulated prompts: a Binary Candidate-included Question (BCQ) pairs one correct teacher response with one incorrect student response as anonymized candidates the student must discriminate, and a Negative Candidate-included Question (NCQ) aggregates the student's wrong rollouts into a single prompt to surface their shared failure modes. A prompt replay buffer recirculates each hard question until it either graduates-the student's mean rollout accuracy on it reaches half- or is FIFO-evicted under finite capacity, amplifying BCQ and NCQ inside the student's current zone of proximal development. On the Qwen3.5 family at four student scales (0.8B-9B) with a 27B teacher, post-trained as vision-language models and evaluated on a 31-benchmark suite (16 VLM, 10 LLM, 5 Video), ZPPO outperforms off/on-policy distillation and GRPO, with the largest gains at the smallest scale.