Одна и та же архитектура, разная емкость: спектральные законы масштабирования, индуцированные оптимизатором

Аннотация

Законы масштабирования сделали производительность языковых моделей предсказуемой на основе размера модели, данных и вычислительных ресурсов, однако они, как правило, рассматривают оптимизатор как фиксированную деталь обучения. Мы показываем, что это допущение упускает фундаментальную ось масштабирования представлений: насколько эффективно оптимизатор преобразует добавленную ширину FFN (сеть прямой связи) в используемую спектральную ёмкость. Используя собственные спектры представлений сети прямой связи, измеренные через мягкие и жесткие спектральные ранги, мы обнаруживаем, что одна и та же архитектура Transformer реализует заметно разные спектральные законы масштабирования при обучении с различными оптимизаторами. Фиксируя архитектуру и план изменения ширины, AdamW демонстрирует слабое масштабирование по жесткому рангу (β=0,44) на представлениях редких токенов (TAIL), где обучение, как известно, наиболее сложно, тогда как Muon достигает линейного масштабирования (β=1,02) в тех же режимах, что соответствует увеличению показателя масштабирования в 2,3 раза. Это различие не сводится к потерям на валидации: конфигурации AdamW могут соответствовать вариантам Dion с низким рангом по перплексии при продленном обучении, демонстрируя при этом резко различную спектральную геометрию, что показывает, что совпадение потерь не подразумевает совпадения структуры представлений. Асимметрия жесткого и мягкого рангов дополнительно выявляет, что оптимизаторы различаются не только тем, насколько ёмкость реализуется, но и тем, как эта ёмкость структурирована по собственным модам. Чтобы разделить эффекты оптимизатора и архитектуры, мы сравниваем их с архитектурными модификациями (например, ранг внимания и позиционное кодирование) и обнаруживаем, что спектральные сдвиги, вызванные оптимизатором, часто превышают архитектурные эффекты. Эти результаты указывают на оптимизацию как на первостепенную ось масштабирования представлений, мотивируя совместное проектирование оптимизатора и архитектуры.

English

Scaling laws have made language-model performance predictable from model size, data, and compute, but they typically treat the optimizer as a fixed training detail. We show that this assumption misses a fundamental axis of representation scaling: how effectively the optimizer converts added FFN width into utilized spectral capacity. Using eigenspectra of feed-forward network representations, measured through soft and hard spectral-ranks, we find that the same Transformer architecture realizes markedly different spectral scaling laws when trained with different optimizers. Holding architecture and width schedule fixed, AdamW exhibits weak hard-rank scaling (β=0.44) on rare-token (TAIL) representations where learning is known to be hardest, whereas Muon achieves linear scaling (β=1.02) in the same regimes, a 2.3times increase in the scaling exponent. This difference is not reducible to validation loss: AdamW configurations can match low-rank Dion variants in perplexity, under extended training, while exhibiting sharply different spectral geometry, demonstrating that matched loss does not imply matched representation structure. Hard--soft rank asymmetry further reveals that optimizers differ not only in how much capacity is realized, but also in how that capacity is structured across eigenmodes. To disentangle optimizer effects from architectural ones, we compare against architectural interventions (e.g., attention rank and positional encoding), and find that optimizer-induced spectral shifts often exceed the architectural effects. These results suggest optimization as a first-class axis of representation scaling, motivating optimizer--architecture co-design.