Leggi di riduzione della distillazione
Distillation Scaling Laws
February 12, 2025
Autori: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI
Abstract
Forniamo una legge di scala di distillazione che stima le prestazioni del modello distillato in base a un budget di calcolo e alla sua allocazione tra lo studente e l'insegnante. I nostri risultati riducono i rischi associati all'uso della distillazione su larga scala; l'allocazione di calcolo per entrambi i modelli, insegnante e studente, può ora essere effettuata per massimizzare le prestazioni dello studente. Forniamo ricette ottimali di distillazione per il calcolo quando 1) esiste un insegnante, o 2) un insegnante ha bisogno di formazione. Se molti studenti devono essere distillati, o se esiste già un insegnante, la distillazione supera il preaddestramento supervisionato fino a un livello di calcolo che cresce in modo prevedibile con le dimensioni dello studente. Se si deve distillare un solo studente e l'insegnante ha anche bisogno di formazione, si dovrebbe invece fare apprendimento supervisionato. Inoltre, forniamo approfondimenti attraverso il nostro studio su larga scala della distillazione, che aumentano la nostra comprensione della distillazione e informano la progettazione sperimentale.
English
We provide a distillation scaling law that estimates distilled model
performance based on a compute budget and its allocation between the student
and teacher. Our findings reduce the risks associated with using distillation
at scale; compute allocation for both the teacher and student models can now be
done to maximize student performance. We provide compute optimal distillation
recipes for when 1) a teacher exists, or 2) a teacher needs training. If many
students are to be distilled, or a teacher already exists, distillation
outperforms supervised pretraining until a compute level which grows
predictably with student size. If one student is to be distilled and a teacher
also needs training, supervised learning should be done instead. Additionally,
we provide insights across our large scale study of distillation, which
increase our understanding of distillation and inform experimental design.Summary
AI-Generated Summary