ChatPaper.aiChatPaper

Оптимальное масштабирование требует оптимальной нормы

Optimal Scaling Needs Optimal Norm

October 4, 2025
Авторы: Oleg Filatov, Jiangtao Wang, Jan Ebert, Stefan Kesselheim
cs.AI

Аннотация

Несмотря на недавние успехи в передаче оптимальных гиперпараметров при масштабировании модели и набора данных, универсальный объяснительный принцип до сих пор не установлен. Используя оптимизатор Scion, мы обнаруживаем, что совместное оптимальное масштабирование для размеров модели и набора данных регулируется единственным инвариантом: операторной нормой выходного слоя. Для моделей с числом параметров до 1,3 млрд, обученных на до 138 млрд токенов, оптимальная пара (скорость обучения/размер батча) (eta^{ast}, B^{ast}) всегда имеет одно и то же значение операторной нормы — явление, которое мы называем передачей нормы. Это условие постоянной нормы является необходимым, но не достаточным: хотя для каждого размера набора данных несколько пар (eta, B) достигают оптимальной нормы, только уникальная пара (eta^{ast}, B^{ast}) обеспечивает наилучшую потерю. В качестве достаточного условия мы впервые измеряем масштабирование (eta^{ast}, B^{ast}) с размером набора данных для Scion и обнаруживаем, что правила масштабирования согласуются с таковыми для оптимизатора Adam. Настройка скорости обучения для групп слоев также улучшает производительность модели, причем выходной слой оказывается наиболее чувствительным, а скрытые слои выигрывают от более низких скоростей обучения. Мы предоставляем практические рекомендации по оптимальному масштабированию, основанному на норме, и выпускаем нашу реализацию Distributed Scion (Disco) с логами более двух тысяч запусков для поддержки исследований динамики обучения крупномасштабных языковых моделей.
English
Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that joint optimal scaling across model and dataset sizes is governed by a single invariant: the operator norm of the output layer. Across models with up to 1.3B parameters trained on up to 138B tokens, the optimal learning rate/batch size pair (eta^{ast}, B^{ast}) consistently has the same operator norm value - a phenomenon we term norm transfer. This constant norm condition is necessary but not sufficient: while for each dataset size, multiple (eta, B) reach the optimal norm, only a unique (eta^{ast}, B^{ast}) achieves the best loss. As a sufficient condition, we provide the first measurement of (eta^{ast}, B^{ast}) scaling with dataset size for Scion, and find that the scaling rules are consistent with those of the Adam optimizer. Tuning per-layer-group learning rates also improves model performance, with the output layer being the most sensitive and hidden layers benefiting from lower learning rates. We provide practical insights on norm-guided optimal scaling and release our Distributed Scion (Disco) implementation with logs from over two thousand runs to support research on LLM training dynamics at scale.
PDF272October 7, 2025