PACED: Дистилляция на грани компетентности обучаемого

Аннотация

Стандартная дистилляция больших языковых моделей неэффективно расходует вычислительные ресурсы в двух аспектах: на задачах, которые студенческая модель уже освоила (близкие к нулю градиенты), и на задачах, далеко превосходящих её текущие возможности (некогерентные градиенты, разрушающие существующие навыки). Мы демонстрируем, что эти потери не просто интуитивно очевидны, но структурно неизбежны: отношение сигнал-шум градиента при дистилляции теоретически исчезает на обоих крайних значениях уровня успешности. Это теоретическое наблюдение приводит к методу Paced — фреймворку, который концентрирует дистилляцию в зоне ближайшего развития, то есть на границе компетенции студенческой модели, с помощью принципиально обоснованного весового коэффициента w(p) = p^α(1 - p)^β, выведенного из структуры затухания градиентов на границах. Ключевые результаты: (1) Теория: Мы доказываем, что бета-ядро w(p) = p^α(1-p)^β является ведущим семейством весов, возникающим из структуры ОСШ при дистилляции, и что оно робастно в минимаксном смысле — при ограниченной мультипликативной спецификации худшие потери эффективности составляют лишь O(δ^2). (2) Дистилляция: При дистилляции от более крупной учительской модели к меньшей студенческой с использованием прямого KL-расхождения метод Paced обеспечивает значительный прирост качества относительно базовой модели при низком уровне забывания на контрольных задачах. (3) Само-дистилляция: Для инструктивно-обученных моделей с обратным KL-расхождением метод также превосходит базовые подходы. (4) Синергия двухэтапного обучения: График «прямой KL → обратный KL» дает наилучшие результаты в нашей постановке, достигая существенного улучшения на стандартных тестах логического вывода — что подтверждает интерпретацию дистилляции как процесса последовательного охвата мод и их консолидации. Все конфигурации требуют лишь сэмплирования студенческой модели для оценки уровня успешности, не нуждаются в изменении архитектуры и совместимы с любым направлением KL-расхождения.

English

Standard LLM distillation wastes compute on two fronts: problems the student has already mastered (near-zero gradients) and problems far beyond its reach (incoherent gradients that erode existing capabilities). We show that this waste is not merely intuitive but structurally inevitable: the gradient signal-to-noise ratio in distillation provably vanishes at both pass-rate extremes. This theoretical observation leads to Paced, a framework that concentrates distillation on the zone of proximal development -- the frontier of a student model's competence -- via a principled pass-rate weight w(p) = p^α(1 - p)^β derived from the boundary-vanishing structure of distillation gradients. Key results: (1) Theory: We prove that the Beta kernel w(p) = p^α(1-p)^β is a leading-order weight family arising from the SNR structure of distillation, and that it is minimax-robust -- under bounded multiplicative misspecification, worst-case efficiency loss is only O(δ^2). (2)Distillation: On distillation from a larger teacher to a smaller student model with forward KL, Paced achieves significant gain over the base model, while keeping benchmark forgetting at a low level. (3)Self-distillation: On instruction-tuned models with reverse KL, gains are exceeding baselines as well. (4)Two-stage synergy: A forward-KL-then-reverse-KL schedule yields the strongest results in our setting, reaching substantial improvements on standard reasoning benchmarks -- supporting a mode-coverage-then-consolidation interpretation of the distillation process. All configurations require only student rollouts to estimate pass rates, need no architectural changes, and are compatible with any KL direction.

PACED: Дистилляция на грани компетентности обучаемого

PACED: Distillation at the Frontier of Student Competence

Аннотация

Support