ChatPaper.aiChatPaper

Pietre preziose: un insieme di modelli per leggi di scala multifaccettate

Gemstones: A Model Suite for Multi-Faceted Scaling Laws

February 7, 2025
Autori: Sean McLeish, John Kirchenbauer, David Yu Miller, Siddharth Singh, Abhinav Bhatele, Micah Goldblum, Ashwinee Panda, Tom Goldstein
cs.AI

Abstract

Le leggi di scala sono tipicamente adattate utilizzando una famiglia di modelli con una stretta gamma di scelte di iperparametri fissi. In questo lavoro studiamo le leggi di scala utilizzando una vasta gamma di architetture e scelte di iperparametri, evidenziandone l'impatto sulle prescrizioni risultanti. Come principale risultato della nostra ricerca, rilasciamo i Gemstones: il dataset di leggi di scala open-source più completo ad oggi, composto da oltre 4000 checkpoint di trasformatori con fino a 2 miliardi di parametri; questi modelli sono stati addestrati con diverse velocità di apprendimento, programmi di raffreddamento e forme architetturali. I nostri checkpoint consentono studi più complessi sulla scala, come una legge che predice le prestazioni di modellizzazione del linguaggio in funzione della larghezza e della profondità del modello. Esaminando i vari aspetti della nostra suite di modelli, scopriamo che le prescrizioni delle leggi di scala possono essere altamente sensibili al processo di progettazione sperimentale e ai checkpoint specifici del modello utilizzati durante l'adattamento. Codice: https://github.com/mcleish7/gemstone-scaling-laws
English
Scaling laws are typically fit using a family of models with a narrow range of frozen hyper-parameter choices. In this work we study scaling laws using a wide range of architecture and hyper-parameter choices, and highlight their impact on resulting prescriptions. As a primary artifact of our research, we release the Gemstones: the most comprehensive open-source scaling law dataset to date, consisting of over 4000 checkpoints from transformers with up to 2 billion parameters; these models have been trained with different learning rates, cooldown schedules, and architectural shapes. Our checkpoints enable more complex studies of scaling, such as a law that predicts language modeling performance as a function of model width and depth. By examining the various facets of our model suite, we find that the prescriptions of scaling laws can be highly sensitive to the experimental design process and the specific model checkpoints used during fitting. Code: https://github.com/mcleish7/gemstone-scaling-laws
PDF252February 12, 2025