ChatPaper.aiChatPaper

Schaalwetten voor Destillatie

Distillation Scaling Laws

February 12, 2025
Auteurs: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI

Samenvatting

We presenteren een distillatieschaalwet die de prestaties van het gedistilleerde model schat op basis van een rekentoewijzing en de verdeling ervan tussen de student en de leraar. Onze bevindingen verminderen de risico's die gepaard gaan met het gebruik van distillatie op grote schaal; rekentoewijzing voor zowel de leraar als de student kan nu worden uitgevoerd om de prestaties van de student te maximaliseren. We bieden rekentechnisch optimale distillatierecepten voor wanneer 1) een leraar bestaat, of 2) een leraar training nodig heeft. Als er veel studenten moeten worden gedistilleerd, of als er al een leraar bestaat, presteert distillatie beter dan begeleid vooraf trainen tot een rekenniveau dat voorspelbaar groeit met de omvang van de student. Als er één student moet worden gedistilleerd en de leraar ook training nodig heeft, moet in plaats daarvan begeleid leren worden uitgevoerd. Bovendien bieden we inzichten uit onze grootschalige studie van distillatie, die ons begrip van distillatie vergroten en experimenteel ontwerp informeren.
English
We provide a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings reduce the risks associated with using distillation at scale; compute allocation for both the teacher and student models can now be done to maximize student performance. We provide compute optimal distillation recipes for when 1) a teacher exists, or 2) a teacher needs training. If many students are to be distilled, or a teacher already exists, distillation outperforms supervised pretraining until a compute level which grows predictably with student size. If one student is to be distilled and a teacher also needs training, supervised learning should be done instead. Additionally, we provide insights across our large scale study of distillation, which increase our understanding of distillation and inform experimental design.

Summary

AI-Generated Summary

PDF484February 13, 2025