ChatPaper.aiChatPaper

Edelsteine: Ein Modellsatz für vielschichtige Skalengesetze

Gemstones: A Model Suite for Multi-Faceted Scaling Laws

February 7, 2025
Autoren: Sean McLeish, John Kirchenbauer, David Yu Miller, Siddharth Singh, Abhinav Bhatele, Micah Goldblum, Ashwinee Panda, Tom Goldstein
cs.AI

Zusammenfassung

Skalierungsgesetze werden in der Regel unter Verwendung einer Modellfamilie mit einer engen Auswahl an festgelegten Hyperparameterwerten angepasst. In dieser Arbeit untersuchen wir Skalierungsgesetze unter Verwendung einer breiten Palette von Architektur- und Hyperparameterwerten und heben deren Auswirkungen auf die resultierenden Vorschriften hervor. Als Hauptergebnis unserer Forschung veröffentlichen wir die Gemstones: den bisher umfassendsten Open-Source-Datensatz für Skalierungsgesetze, bestehend aus über 4000 Checkpoints von Transformatoren mit bis zu 2 Milliarden Parametern. Diese Modelle wurden mit unterschiedlichen Lernraten, Abkühlplänen und architektonischen Formen trainiert. Unsere Checkpoints ermöglichen komplexere Studien zur Skalierung, wie ein Gesetz, das die Leistung des Sprachmodellierens als Funktion von Modellbreite und -tiefe vorhersagt. Durch die Untersuchung der verschiedenen Facetten unserer Modellsammlung stellen wir fest, dass die Vorschriften der Skalierungsgesetze sehr empfindlich gegenüber dem experimentellen Designprozess und den spezifischen Modell-Checkpoints sein können, die während der Anpassung verwendet werden. Code: https://github.com/mcleish7/gemstone-scaling-laws
English
Scaling laws are typically fit using a family of models with a narrow range of frozen hyper-parameter choices. In this work we study scaling laws using a wide range of architecture and hyper-parameter choices, and highlight their impact on resulting prescriptions. As a primary artifact of our research, we release the Gemstones: the most comprehensive open-source scaling law dataset to date, consisting of over 4000 checkpoints from transformers with up to 2 billion parameters; these models have been trained with different learning rates, cooldown schedules, and architectural shapes. Our checkpoints enable more complex studies of scaling, such as a law that predicts language modeling performance as a function of model width and depth. By examining the various facets of our model suite, we find that the prescriptions of scaling laws can be highly sensitive to the experimental design process and the specific model checkpoints used during fitting. Code: https://github.com/mcleish7/gemstone-scaling-laws

Summary

AI-Generated Summary

PDF252February 12, 2025