PACED: Distillazione al Confine della Competenza dello Studente

Abstract

La distillazione standard di LLM spreca risorse computazionali su due fronti: problemi che lo studente ha già padroneggiato (gradienti prossimi allo zero) e problemi ben oltre la sua portata (gradienti incoerenti che erodono le capacità esistenti). Dimostriamo che questo spreco non è solo intuitivo, ma strutturalmente inevitabile: il rapporto segnale-rumore del gradiente nella distillazione si annulla in modo provabile ad entrambi gli estremi del tasso di successo. Questa osservazione teorica porta a Paced, un framework che concentra la distillazione sulla zona di sviluppo prossimale – la frontiera della competenza di un modello studente – attraverso un peso w(p) = p^α(1 - p)^β, derivato dalla struttura di annullamento al bordo dei gradienti di distillazione. Risultati chiave: (1) Teoria: Dimostriamo che il kernel Beta w(p) = p^α(1-p)^β è una famiglia di pesi del primo ordine che emerge dalla struttura del SNR della distillazione, e che è minimax-robusto – sotto una errata specificazione moltiplicativa limitata, la perdita di efficienza nel caso peggiore è solo O(δ^2). (2) Distillazione: Nella distillazione da un insegnante più grande a un modello studente più piccolo con KL forward, Paced ottiene un guadagno significativo rispetto al modello base, mantenendo al contempo un basso livello di oblio sui benchmark. (3) Auto-distillazione: Su modelli addestrati con istruzioni utilizzando KL inverso, i guadagni superano anch'essi i baseline. (4) Sinergia a due stadi: Una schedulazione KL-forward-poi-KL-inverso produce i risultati più solidi nel nostro setting, raggiungendo miglioramenti sostanziali su benchmark di ragionamento standard – supportando un'interpretazione del processo di distillazione come copertura-dei-modi-poi-consolidamento. Tutte le configurazioni richiedono solo rollout dello studente per stimare i tassi di successo, non necessitano di modifiche architetturali e sono compatibili con qualsiasi direzione KL.

English

Standard LLM distillation wastes compute on two fronts: problems the student has already mastered (near-zero gradients) and problems far beyond its reach (incoherent gradients that erode existing capabilities). We show that this waste is not merely intuitive but structurally inevitable: the gradient signal-to-noise ratio in distillation provably vanishes at both pass-rate extremes. This theoretical observation leads to Paced, a framework that concentrates distillation on the zone of proximal development -- the frontier of a student model's competence -- via a principled pass-rate weight w(p) = p^α(1 - p)^β derived from the boundary-vanishing structure of distillation gradients. Key results: (1) Theory: We prove that the Beta kernel w(p) = p^α(1-p)^β is a leading-order weight family arising from the SNR structure of distillation, and that it is minimax-robust -- under bounded multiplicative misspecification, worst-case efficiency loss is only O(δ^2). (2)Distillation: On distillation from a larger teacher to a smaller student model with forward KL, Paced achieves significant gain over the base model, while keeping benchmark forgetting at a low level. (3)Self-distillation: On instruction-tuned models with reverse KL, gains are exceeding baselines as well. (4)Two-stage synergy: A forward-KL-then-reverse-KL schedule yields the strongest results in our setting, reaching substantial improvements on standard reasoning benchmarks -- supporting a mode-coverage-then-consolidation interpretation of the distillation process. All configurations require only student rollouts to estimate pass rates, need no architectural changes, and are compatible with any KL direction.

PACED: Distillazione al Confine della Competenza dello Studente

PACED: Distillation at the Frontier of Student Competence

Abstract

Support