Gemstones : Un ensemble de modèles pour les lois d'échelle multi-facettes
Gemstones: A Model Suite for Multi-Faceted Scaling Laws
February 7, 2025
Auteurs: Sean McLeish, John Kirchenbauer, David Yu Miller, Siddharth Singh, Abhinav Bhatele, Micah Goldblum, Ashwinee Panda, Tom Goldstein
cs.AI
Résumé
Les lois d'échelle sont généralement ajustées en utilisant une famille de modèles avec une gamme étroite de choix d'hyperparamètres figés. Dans ce travail, nous étudions les lois d'échelle en utilisant une large gamme d'architectures et de choix d'hyperparamètres, et mettons en lumière leur impact sur les prescriptions résultantes. En tant qu'élément principal de notre recherche, nous publions les Gemstones : l'ensemble de données sur les lois d'échelle open source le plus complet à ce jour, composé de plus de 4000 points de contrôle provenant de transformateurs avec jusqu'à 2 milliards de paramètres ; ces modèles ont été entraînés avec différents taux d'apprentissage, des calendriers de refroidissement et des formes architecturales. Nos points de contrôle permettent des études plus complexes sur l'échelle, telles qu'une loi qui prédit les performances de modélisation de langage en fonction de la largeur et de la profondeur du modèle. En examinant les différents aspects de notre ensemble de modèles, nous constatons que les prescriptions des lois d'échelle peuvent être très sensibles au processus de conception expérimentale et aux points de contrôle de modèle spécifiques utilisés lors de l'ajustement. Code : https://github.com/mcleish7/gemstone-scaling-laws
English
Scaling laws are typically fit using a family of models with a narrow range
of frozen hyper-parameter choices. In this work we study scaling laws using a
wide range of architecture and hyper-parameter choices, and highlight their
impact on resulting prescriptions. As a primary artifact of our research, we
release the Gemstones: the most comprehensive open-source scaling law dataset
to date, consisting of over 4000 checkpoints from transformers with up to 2
billion parameters; these models have been trained with different learning
rates, cooldown schedules, and architectural shapes. Our checkpoints enable
more complex studies of scaling, such as a law that predicts language modeling
performance as a function of model width and depth. By examining the various
facets of our model suite, we find that the prescriptions of scaling laws can
be highly sensitive to the experimental design process and the specific model
checkpoints used during fitting. Code:
https://github.com/mcleish7/gemstone-scaling-lawsSummary
AI-Generated Summary