Schaalwetten voor Destillatie
Distillation Scaling Laws
February 12, 2025
Auteurs: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI
Samenvatting
We presenteren een distillatieschaalwet die de prestaties van het gedistilleerde model schat op basis van een rekentoewijzing en de verdeling ervan tussen de student en de leraar. Onze bevindingen verminderen de risico's die gepaard gaan met het gebruik van distillatie op grote schaal; rekentoewijzing voor zowel de leraar als de student kan nu worden uitgevoerd om de prestaties van de student te maximaliseren. We bieden rekentechnisch optimale distillatierecepten voor wanneer 1) een leraar bestaat, of 2) een leraar training nodig heeft. Als er veel studenten moeten worden gedistilleerd, of als er al een leraar bestaat, presteert distillatie beter dan begeleid vooraf trainen tot een rekenniveau dat voorspelbaar groeit met de omvang van de student. Als er één student moet worden gedistilleerd en de leraar ook training nodig heeft, moet in plaats daarvan begeleid leren worden uitgevoerd. Bovendien bieden we inzichten uit onze grootschalige studie van distillatie, die ons begrip van distillatie vergroten en experimenteel ontwerp informeren.
English
We provide a distillation scaling law that estimates distilled model
performance based on a compute budget and its allocation between the student
and teacher. Our findings reduce the risks associated with using distillation
at scale; compute allocation for both the teacher and student models can now be
done to maximize student performance. We provide compute optimal distillation
recipes for when 1) a teacher exists, or 2) a teacher needs training. If many
students are to be distilled, or a teacher already exists, distillation
outperforms supervised pretraining until a compute level which grows
predictably with student size. If one student is to be distilled and a teacher
also needs training, supervised learning should be done instead. Additionally,
we provide insights across our large scale study of distillation, which
increase our understanding of distillation and inform experimental design.Summary
AI-Generated Summary