ChatPaper.aiChatPaper

Драгоценные камни: модельный набор для многогранных законов масштабирования

Gemstones: A Model Suite for Multi-Faceted Scaling Laws

February 7, 2025
Авторы: Sean McLeish, John Kirchenbauer, David Yu Miller, Siddharth Singh, Abhinav Bhatele, Micah Goldblum, Ashwinee Panda, Tom Goldstein
cs.AI

Аннотация

Законы масштабирования обычно подбираются с использованием семейства моделей с узким диапазоном замороженных выборов гиперпараметров. В данной работе мы изучаем законы масштабирования, используя широкий спектр архитектур и выборов гиперпараметров, и выделяем их влияние на получаемые рекомендации. В качестве основного артефакта нашего исследования мы выпускаем Gemstones: самый полный набор данных по законам масштабирования на сегодняшний день, состоящий из более чем 4000 контрольных точек от трансформеров с до 2 миллиардами параметров; эти модели были обучены с различными скоростями обучения, расписаниями остывания и архитектурными формами. Наши контрольные точки позволяют более сложные исследования масштабирования, такие как закон, предсказывающий производительность языкового моделирования как функцию ширины и глубины модели. Изучая различные аспекты нашего набора моделей, мы обнаруживаем, что рекомендации законов масштабирования могут быть чрезвычайно чувствительны к процессу экспериментального проектирования и конкретным контрольным точкам модели, использованным во время подгонки. Код: https://github.com/mcleish7/gemstone-scaling-laws
English
Scaling laws are typically fit using a family of models with a narrow range of frozen hyper-parameter choices. In this work we study scaling laws using a wide range of architecture and hyper-parameter choices, and highlight their impact on resulting prescriptions. As a primary artifact of our research, we release the Gemstones: the most comprehensive open-source scaling law dataset to date, consisting of over 4000 checkpoints from transformers with up to 2 billion parameters; these models have been trained with different learning rates, cooldown schedules, and architectural shapes. Our checkpoints enable more complex studies of scaling, such as a law that predicts language modeling performance as a function of model width and depth. By examining the various facets of our model suite, we find that the prescriptions of scaling laws can be highly sensitive to the experimental design process and the specific model checkpoints used during fitting. Code: https://github.com/mcleish7/gemstone-scaling-laws

Summary

AI-Generated Summary

PDF252February 12, 2025