Leyes de Escala de Destilación
Distillation Scaling Laws
February 12, 2025
Autores: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI
Resumen
Presentamos una ley de escala de destilación que estima el rendimiento del modelo destilado en función de un presupuesto de cómputo y su asignación entre el estudiante y el profesor. Nuestros hallazgos reducen los riesgos asociados con el uso de la destilación a gran escala; la asignación de cómputo para los modelos tanto del profesor como del estudiante ahora puede realizarse para maximizar el rendimiento del estudiante. Proporcionamos recetas de destilación óptimas en cómputo para cuando 1) existe un profesor, o 2) un profesor necesita entrenamiento. Si se van a destilar muchos estudiantes, o si ya existe un profesor, la destilación supera al preentrenamiento supervisado hasta un nivel de cómputo que crece de manera predecible con el tamaño del estudiante. Si se va a destilar un solo estudiante y también se necesita entrenar a un profesor, en su lugar se debería realizar aprendizaje supervisado. Además, ofrecemos ideas a lo largo de nuestro estudio a gran escala sobre destilación, que aumentan nuestra comprensión de la destilación e informan el diseño experimental.
English
We provide a distillation scaling law that estimates distilled model
performance based on a compute budget and its allocation between the student
and teacher. Our findings reduce the risks associated with using distillation
at scale; compute allocation for both the teacher and student models can now be
done to maximize student performance. We provide compute optimal distillation
recipes for when 1) a teacher exists, or 2) a teacher needs training. If many
students are to be distilled, or a teacher already exists, distillation
outperforms supervised pretraining until a compute level which grows
predictably with student size. If one student is to be distilled and a teacher
also needs training, supervised learning should be done instead. Additionally,
we provide insights across our large scale study of distillation, which
increase our understanding of distillation and inform experimental design.Summary
AI-Generated Summary