PACED: Destilação na Fronteira da Competência do Estudante

Resumo

A destilação padrão de LLM desperdiça computação em duas frentes: problemas que o aluno já dominou (gradientes próximos de zero) e problemas muito além do seu alcance (gradientes incoerentes que corroem capacidades existentes). Demonstramos que este desperdício não é apenas intuitivo, mas estruturalmente inevitável: a relação sinal-ruído do gradiente na destilação comprovadamente desaparece em ambos os extremos da taxa de acerto. Esta observação teórica leva ao Paced, uma estrutura que concentra a destilação na zona de desenvolvimento proximal – a fronteira da competência de um modelo estudante – através de um peso de taxa de acerto fundamentado w(p) = p^α(1 - p)^β, derivado da estrutura de desaparecimento no limite dos gradientes de destilação. Principais resultados: (1) Teoria: Provamos que o núcleo Beta w(p) = p^α(1-p)^β é uma família de pesos de ordem principal que surge da estrutura da relação sinal-ruído da destilação, e que é minimax-robusto – sob má especificação multiplicativa limitada, a perda de eficiência no pior caso é de apenas O(δ^2). (2) Destilação: Na destilação de um professor maior para um modelo estudante menor com KL direta, o Paced obtém ganho significativo sobre o modelo base, mantendo o esquecimento em benchmarks num nível baixo. (3) Auto-destilação: Em modelos ajustados por instrução com KL reversa, os ganhos também superam as linhas de base. (4) Sinergia em dois estágios: Um cronograma de KL-direta-depois-KL-reversa produz os resultados mais fortes na nossa configuração, alcançando melhorias substanciais em benchmarks de raciocínio padrão – apoiando uma interpretação de cobertura-de-modos-e-depois-consolidação do processo de destilação. Todas as configurações requerem apenas rollouts do estudante para estimar taxas de acerto, não precisam de alterações arquiteturais e são compatíveis com qualquer direção de KL.

English

Standard LLM distillation wastes compute on two fronts: problems the student has already mastered (near-zero gradients) and problems far beyond its reach (incoherent gradients that erode existing capabilities). We show that this waste is not merely intuitive but structurally inevitable: the gradient signal-to-noise ratio in distillation provably vanishes at both pass-rate extremes. This theoretical observation leads to Paced, a framework that concentrates distillation on the zone of proximal development -- the frontier of a student model's competence -- via a principled pass-rate weight w(p) = p^α(1 - p)^β derived from the boundary-vanishing structure of distillation gradients. Key results: (1) Theory: We prove that the Beta kernel w(p) = p^α(1-p)^β is a leading-order weight family arising from the SNR structure of distillation, and that it is minimax-robust -- under bounded multiplicative misspecification, worst-case efficiency loss is only O(δ^2). (2)Distillation: On distillation from a larger teacher to a smaller student model with forward KL, Paced achieves significant gain over the base model, while keeping benchmark forgetting at a low level. (3)Self-distillation: On instruction-tuned models with reverse KL, gains are exceeding baselines as well. (4)Two-stage synergy: A forward-KL-then-reverse-KL schedule yields the strongest results in our setting, reaching substantial improvements on standard reasoning benchmarks -- supporting a mode-coverage-then-consolidation interpretation of the distillation process. All configurations require only student rollouts to estimate pass rates, need no architectural changes, and are compatible with any KL direction.

PACED: Destilação na Fronteira da Competência do Estudante

PACED: Distillation at the Frontier of Student Competence

Resumo

Support