Gemstones : Un ensemble de modèles pour les lois d'échelle multi-facettes

papers.abstract

Les lois d'échelle sont généralement ajustées en utilisant une famille de modèles avec une gamme étroite de choix d'hyperparamètres figés. Dans ce travail, nous étudions les lois d'échelle en utilisant une large gamme d'architectures et de choix d'hyperparamètres, et mettons en lumière leur impact sur les prescriptions résultantes. En tant qu'élément principal de notre recherche, nous publions les Gemstones : l'ensemble de données sur les lois d'échelle open source le plus complet à ce jour, composé de plus de 4000 points de contrôle provenant de transformateurs avec jusqu'à 2 milliards de paramètres ; ces modèles ont été entraînés avec différents taux d'apprentissage, des calendriers de refroidissement et des formes architecturales. Nos points de contrôle permettent des études plus complexes sur l'échelle, telles qu'une loi qui prédit les performances de modélisation de langage en fonction de la largeur et de la profondeur du modèle. En examinant les différents aspects de notre ensemble de modèles, nous constatons que les prescriptions des lois d'échelle peuvent être très sensibles au processus de conception expérimentale et aux points de contrôle de modèle spécifiques utilisés lors de l'ajustement. Code : https://github.com/mcleish7/gemstone-scaling-laws

English

Scaling laws are typically fit using a family of models with a narrow range of frozen hyper-parameter choices. In this work we study scaling laws using a wide range of architecture and hyper-parameter choices, and highlight their impact on resulting prescriptions. As a primary artifact of our research, we release the Gemstones: the most comprehensive open-source scaling law dataset to date, consisting of over 4000 checkpoints from transformers with up to 2 billion parameters; these models have been trained with different learning rates, cooldown schedules, and architectural shapes. Our checkpoints enable more complex studies of scaling, such as a law that predicts language modeling performance as a function of model width and depth. By examining the various facets of our model suite, we find that the prescriptions of scaling laws can be highly sensitive to the experimental design process and the specific model checkpoints used during fitting. Code: https://github.com/mcleish7/gemstone-scaling-laws

Gemstones : Un ensemble de modèles pour les lois d'échelle multi-facettes

Gemstones: A Model Suite for Multi-Faceted Scaling Laws

papers.abstract

Support