Skalierungsgesetze für Destillation
Distillation Scaling Laws
February 12, 2025
Autoren: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI
Zusammenfassung
Wir stellen ein Destillations-Scaling-Gesetz vor, das die Leistung des destillierten Modells anhand eines Rechenbudgets und seiner Aufteilung zwischen dem Schüler und dem Lehrer schätzt. Unsere Ergebnisse reduzieren die Risiken, die mit der Verwendung von Destillation im großen Maßstab verbunden sind; die Rechenzuweisung für sowohl die Lehrer- als auch die Schülermodelle kann nun optimiert werden, um die Leistung des Schülers zu maximieren. Wir bieten optimale Rezepte für die Rechenoptimierung bei Destillation an, wenn 1) ein Lehrer vorhanden ist oder 2) ein Lehrer geschult werden muss. Wenn viele Schüler destilliert werden sollen oder bereits ein Lehrer vorhanden ist, übertrifft Destillation das überwachte Vortraining bis zu einem Rechenlevel, der mit der Schülergröße vorhersehbar wächst. Soll ein Schüler destilliert werden und der Lehrer muss ebenfalls geschult werden, sollte stattdessen überwachtes Lernen durchgeführt werden. Darüber hinaus bieten wir Einblicke in unsere groß angelegte Studie zur Destillation, die unser Verständnis der Destillation vertiefen und das experimentelle Design informieren.
English
We provide a distillation scaling law that estimates distilled model
performance based on a compute budget and its allocation between the student
and teacher. Our findings reduce the risks associated with using distillation
at scale; compute allocation for both the teacher and student models can now be
done to maximize student performance. We provide compute optimal distillation
recipes for when 1) a teacher exists, or 2) a teacher needs training. If many
students are to be distilled, or a teacher already exists, distillation
outperforms supervised pretraining until a compute level which grows
predictably with student size. If one student is to be distilled and a teacher
also needs training, supervised learning should be done instead. Additionally,
we provide insights across our large scale study of distillation, which
increase our understanding of distillation and inform experimental design.Summary
AI-Generated Summary