Зона проксимальной оптимизации политики: учитель в подсказках, а не в градиентах

Аннотация

Дистилляция знаний переносит компетенцию учителя на маленького ученика, но оказывается хрупкой в режиме малого ученика: принуждение ученика имитировать логиты от гораздо большего учителя концентрирует его на самых резких модах учителя, что вредит обобщению на семейства бенчмарков за пределами обучающего корпуса. Обучение с подкреплением (RL) избегает имитации логитов, обучаясь на собственных траекториях (rollouts) ученика. Однако на вопросах, где каждая траектория завершается неудачей – давая нулевое преимущество и молча отбрасываясь – внедрение ответа более сильного учителя в градиент политики нарушает предположение on-policy и вызывает дрейф. Мы представляем Zone of Proximal Policy Optimization (ZPPO), вдохновленную зоной ближайшего развития Выготского, которая держит учителя внутри промпта, а не в градиенте политики. На сложных вопросах ZPPO создает два переформулированных промпта: Binary Candidate-included Question (BCQ) связывает один правильный ответ учителя с одним неправильным ответом ученика в виде анонимных кандидатов, которые ученик должен различить, и Negative Candidate-included Question (NCQ) агрегирует неправильные траектории ученика в один промпт, чтобы выявить их общие паттерны неудач. Буфер воспроизведения промптов повторно циркулирует каждый сложный вопрос, пока он либо не заканчивает обучение – средняя точность траекторий ученика по нему достигает половины, – либо не вытесняется по принципу FIFO при ограниченной емкости, усиливая BCQ и NCQ в текущей зоне ближайшего развития ученика. На семействе Qwen3.5 с четырьмя масштабами ученика (0.8B–9B) и учителем размером 27B, дообученном как визуально-языковые модели и оцененном на наборе из 31 бенчмарка (16 VLM, 10 LLM, 5 Video), ZPPO превосходит off/on-policy дистилляцию и GRPO, причем наибольший прирост наблюдается при самом маленьком масштабе.

English

Knowledge distillation transfers a teacher's competence to a small student but is brittle in the small-student regime: forcing the student to imitate logits from a much larger teacher concentrates it on the teacher's sharpest modes, hurting generalization on benchmark families beyond the training corpus. Reinforcement learning (RL) avoids logit imitation by training on the student's own rollouts. However, on questions where every rollout fails-yielding zero advantage and being silently discarded-injecting a stronger teacher's response into the policy gradient breaks the on-policy assumption and induces drift. We introduce Zone of Proximal Policy Optimization (ZPPO), inspired by Vygotsky's zone of proximal development, which keeps the teacher inside the prompt rather than the policy gradient. On hard questions, ZPPO constructs two reformulated prompts: a Binary Candidate-included Question (BCQ) pairs one correct teacher response with one incorrect student response as anonymized candidates the student must discriminate, and a Negative Candidate-included Question (NCQ) aggregates the student's wrong rollouts into a single prompt to surface their shared failure modes. A prompt replay buffer recirculates each hard question until it either graduates-the student's mean rollout accuracy on it reaches half- or is FIFO-evicted under finite capacity, amplifying BCQ and NCQ inside the student's current zone of proximal development. On the Qwen3.5 family at four student scales (0.8B-9B) with a 27B teacher, post-trained as vision-language models and evaluated on a 31-benchmark suite (16 VLM, 10 LLM, 5 Video), ZPPO outperforms off/on-policy distillation and GRPO, with the largest gains at the smallest scale.