ChatPaper.aiChatPaper

Leyes de Escala de Destilación

Distillation Scaling Laws

February 12, 2025
Autores: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI

Resumen

Presentamos una ley de escala de destilación que estima el rendimiento del modelo destilado en función de un presupuesto de cómputo y su asignación entre el estudiante y el profesor. Nuestros hallazgos reducen los riesgos asociados con el uso de la destilación a gran escala; la asignación de cómputo para los modelos tanto del profesor como del estudiante ahora puede realizarse para maximizar el rendimiento del estudiante. Proporcionamos recetas de destilación óptimas en cómputo para cuando 1) existe un profesor, o 2) un profesor necesita entrenamiento. Si se van a destilar muchos estudiantes, o si ya existe un profesor, la destilación supera al preentrenamiento supervisado hasta un nivel de cómputo que crece de manera predecible con el tamaño del estudiante. Si se va a destilar un solo estudiante y también se necesita entrenar a un profesor, en su lugar se debería realizar aprendizaje supervisado. Además, ofrecemos ideas a lo largo de nuestro estudio a gran escala sobre destilación, que aumentan nuestra comprensión de la destilación e informan el diseño experimental.
English
We provide a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings reduce the risks associated with using distillation at scale; compute allocation for both the teacher and student models can now be done to maximize student performance. We provide compute optimal distillation recipes for when 1) a teacher exists, or 2) a teacher needs training. If many students are to be distilled, or a teacher already exists, distillation outperforms supervised pretraining until a compute level which grows predictably with student size. If one student is to be distilled and a teacher also needs training, supervised learning should be done instead. Additionally, we provide insights across our large scale study of distillation, which increase our understanding of distillation and inform experimental design.

Summary

AI-Generated Summary

PDF484February 13, 2025