Dezelfde Architectuur, Andere Capaciteit: Optimizer-Geïnduceerde Spectrale Schalingswetten

Samenvatting

Schaalwetten hebben ervoor gezorgd dat de prestaties van taalmodellen voorspelbaar zijn op basis van modelgrootte, data en rekenkracht, maar ze behandelen de optimizer doorgaans als een vast trainingsdetail. We laten zien dat deze aanname een fundamentele as van representatieschaling over het hoofd ziet: hoe effectief de optimizer toegevoegde FFN-breedte omzet in gebruikte spectrale capaciteit. Met behulp van eigenspectra van representaties van feed-forward netwerken, gemeten via zachte en harde spectrale rangen, vinden we dat dezelfde Transformer-architectuur aanzienlijk verschillende spectrale schaalwetten vertoont wanneer getraind met verschillende optimizers. Bij gelijkblijvende architectuur en breedteschema vertoont AdamW een zwakke harde-rangschaling (β=0,44) op representaties van zeldzame tokens (TAIL) waarvan bekend is dat leren het moeilijkst is, terwijl Muon een lineaire schaling (β=1,02) behaalt in dezelfde regimes, een toename van 2,3 keer in de schalingsexponent. Dit verschil is niet te herleiden tot validatieverlies: AdamW-configuraties kunnen, na langere training, overeenkomen met Dion-varianten met lage rang wat betreft perplexiteit, terwijl ze een scherp verschillende spectrale geometrie vertonen, wat aantoont dat overeenkomend verlies niet betekent dat de representatiestructuur overeenkomt. De asymmetrie tussen harde en zachte rangen onthult verder dat optimizers niet alleen verschillen in hoeveel capaciteit wordt gerealiseerd, maar ook in hoe die capaciteit gestructureerd is over eigenmodes. Om de effecten van de optimizer te ontwarren van architecturale effecten, vergelijken we deze met architecturale ingrepen (bijv. aandachtsrang en positionele codering), en vinden we dat door de optimizer veroorzaakte spectrale verschuivingen vaak groter zijn dan de architecturale effecten. Deze resultaten suggereren dat optimalisatie een eersteklas as van representatieschaling is, wat pleit voor co-ontwerp van optimizer en architectuur.

English

Scaling laws have made language-model performance predictable from model size, data, and compute, but they typically treat the optimizer as a fixed training detail. We show that this assumption misses a fundamental axis of representation scaling: how effectively the optimizer converts added FFN width into utilized spectral capacity. Using eigenspectra of feed-forward network representations, measured through soft and hard spectral-ranks, we find that the same Transformer architecture realizes markedly different spectral scaling laws when trained with different optimizers. Holding architecture and width schedule fixed, AdamW exhibits weak hard-rank scaling (β=0.44) on rare-token (TAIL) representations where learning is known to be hardest, whereas Muon achieves linear scaling (β=1.02) in the same regimes, a 2.3times increase in the scaling exponent. This difference is not reducible to validation loss: AdamW configurations can match low-rank Dion variants in perplexity, under extended training, while exhibiting sharply different spectral geometry, demonstrating that matched loss does not imply matched representation structure. Hard--soft rank asymmetry further reveals that optimizers differ not only in how much capacity is realized, but also in how that capacity is structured across eigenmodes. To disentangle optimizer effects from architectural ones, we compare against architectural interventions (e.g., attention rank and positional encoding), and find that optimizer-induced spectral shifts often exceed the architectural effects. These results suggest optimization as a first-class axis of representation scaling, motivating optimizer--architecture co-design.