PACED: Destillation an der Grenze der Schülerkompetenz

Zusammenfassung

Herkömmliche LLM-Distillation verschwendet Rechenleistung auf zwei Ebenen: bei Aufgaben, die der Student bereits beherrscht (Gradienten nahe null), und bei Aufgaben, die weit über seine Fähigkeiten hinausgehen (inkohärente Gradienten, die bestehende Kompetenzen zersetzen). Wir zeigen, dass diese Verschwendung nicht nur intuitiv, sondern strukturell unvermeidbar ist: Das Gradienten-Signal-Rausch-Verhältnis bei der Distillation verschwindet nachweislich an beiden Extremen der Bestehensrate. Diese theoretische Beobachtung führt zu Paced, einem Framework, das die Distillation auf die Zone der proximalen Entwicklung konzentriert – die Grenze der Kompetenz eines Studentenmodells – mittels einer prinzipiellen Gewichtung der Bestehensrate w(p) = p^α(1 - p)^β, die sich aus der Struktur der verschwindenden Distillationsgradienten an den Rändern ableitet. Wichtige Ergebnisse: (1) Theorie: Wir beweisen, dass der Beta-Kernel w(p) = p^α(1-p)^β eine führende Gewichtungsfamilie ist, die aus der SNR-Struktur der Distillation hervorgeht, und dass sie minimax-robust ist – bei begrenzter multiplikativer Fehlspezifikation beträgt der worst-case-Effizienzverlust nur O(δ^2). (2) Distillation: Bei der Distillation von einem größeren Teacher- zu einem kleineren Studentenmodell mit forward KL erzielt Paced signifikante Gewinne gegenüber dem Basismodell, bei gleichzeitig niedrigem Vergessen in Benchmarks. (3) Selbst-Distillation: Bei instruktionsfinetunierten Modellen mit reverse KL übertreffen die Gewinne ebenfalls die Baselinewerte. (4) Zwei-Stufen-Synergie: Ein Ablaufplan mit forward KL gefolgt von reverse KL erzielt in unserem Setup die stärksten Ergebnisse und erreicht substantielle Verbesserungen in standardisierten Reasoning-Benchmarks – was eine Interpretation des Distillationsprozesses als Modus-Abdeckung gefolgt von Konsolidierung stützt. Alle Konfigurationen erfordern lediglich Student-Rollouts zur Schätzung der Bestehensraten, benötigen keine Architekturänderungen und sind mit jeder KL-Richtung kompatibel.

English

Standard LLM distillation wastes compute on two fronts: problems the student has already mastered (near-zero gradients) and problems far beyond its reach (incoherent gradients that erode existing capabilities). We show that this waste is not merely intuitive but structurally inevitable: the gradient signal-to-noise ratio in distillation provably vanishes at both pass-rate extremes. This theoretical observation leads to Paced, a framework that concentrates distillation on the zone of proximal development -- the frontier of a student model's competence -- via a principled pass-rate weight w(p) = p^α(1 - p)^β derived from the boundary-vanishing structure of distillation gradients. Key results: (1) Theory: We prove that the Beta kernel w(p) = p^α(1-p)^β is a leading-order weight family arising from the SNR structure of distillation, and that it is minimax-robust -- under bounded multiplicative misspecification, worst-case efficiency loss is only O(δ^2). (2)Distillation: On distillation from a larger teacher to a smaller student model with forward KL, Paced achieves significant gain over the base model, while keeping benchmark forgetting at a low level. (3)Self-distillation: On instruction-tuned models with reverse KL, gains are exceeding baselines as well. (4)Two-stage synergy: A forward-KL-then-reverse-KL schedule yields the strongest results in our setting, reaching substantial improvements on standard reasoning benchmarks -- supporting a mode-coverage-then-consolidation interpretation of the distillation process. All configurations require only student rollouts to estimate pass rates, need no architectural changes, and are compatible with any KL direction.

PACED: Destillation an der Grenze der Schülerkompetenz

PACED: Distillation at the Frontier of Student Competence

Zusammenfassung

Support