Lois d'échelle de distillation
Distillation Scaling Laws
February 12, 2025
Auteurs: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI
Résumé
Nous proposons une loi d'échelle de distillation qui estime les performances du modèle distillé en fonction d'un budget de calcul et de son allocation entre l'élève et le professeur. Nos résultats réduisent les risques associés à l'utilisation de la distillation à grande échelle ; l'allocation de calcul pour les modèles enseignant et élève peut désormais être optimisée pour maximiser les performances de l'élève. Nous fournissons des recettes de distillation optimales en termes de calcul lorsque 1) un enseignant existe, ou 2) un enseignant doit être formé. Si de nombreux élèves doivent être distillés, ou si un enseignant existe déjà, la distillation surpasse le pré-entraînement supervisé jusqu'à un niveau de calcul qui croît de manière prévisible avec la taille de l'élève. Si un seul élève doit être distillé et qu'un enseignant doit également être formé, un apprentissage supervisé devrait être effectué à la place. De plus, nous fournissons des perspectives issues de notre étude à grande échelle sur la distillation, qui améliorent notre compréhension de la distillation et orientent la conception expérimentale.
English
We provide a distillation scaling law that estimates distilled model
performance based on a compute budget and its allocation between the student
and teacher. Our findings reduce the risks associated with using distillation
at scale; compute allocation for both the teacher and student models can now be
done to maximize student performance. We provide compute optimal distillation
recipes for when 1) a teacher exists, or 2) a teacher needs training. If many
students are to be distilled, or a teacher already exists, distillation
outperforms supervised pretraining until a compute level which grows
predictably with student size. If one student is to be distilled and a teacher
also needs training, supervised learning should be done instead. Additionally,
we provide insights across our large scale study of distillation, which
increase our understanding of distillation and inform experimental design.Summary
AI-Generated Summary