Gleiche Architektur, unterschiedliche Kapazität: Optimierer-induzierte spektrale Skalierungsgesetze

Zusammenfassung

Skalierungsgesetze haben die Leistung von Sprachmodellen aus Modellgröße, Daten und Rechenleistung vorhersagbar gemacht, aber sie behandeln den Optimierer typischerweise als festes Trainingsdetail. Wir zeigen, dass diese Annahme eine grundlegende Achse der Repräsentationsskalierung übersieht: wie effektiv der Optimierer die hinzugefügte FFN-Breite in genutzte spektrale Kapazität umwandelt. Unter Verwendung von Eigenspektren von Feed-Forward-Netzwerk-Repräsentationen, gemessen durch weiche und harte spektrale Ränge, stellen wir fest, dass dieselbe Transformer-Architektur deutlich unterschiedliche spektrale Skalierungsgesetze aufweist, wenn sie mit verschiedenen Optimierern trainiert wird. Bei festgehaltener Architektur und festgehaltenem Breitenverlauf zeigt AdamW eine schwache harte Rangskalierung (β=0,44) bei Darstellungen seltener Token (TAIL), bei denen das Lernen bekanntermaßen am schwierigsten ist, während Muon in denselben Regimen eine lineare Skalierung (β=1,02) erreicht, eine 2,3-fache Steigerung des Skalierungsexponenten. Dieser Unterschied ist nicht auf den Validierungsverlust zurückzuführen: AdamW-Konfigurationen können bei verlängertem Training mit niedrigrangigen Dion-Varianten in der Perplexität mithalten, während sie eine stark unterschiedliche spektrale Geometrie aufweisen, was zeigt, dass eine angeglichene Verlustfunktion nicht eine angeglichene Repräsentationsstruktur impliziert. Die Härte-Weich-Rangasymmetrie zeigt ferner, dass sich Optimierer nicht nur darin unterscheiden, wie viel Kapazität realisiert wird, sondern auch darin, wie diese Kapazität über die Eigenmoden strukturiert ist. Um Optimierereffekte von architektonischen zu trennen, vergleichen wir sie mit architektonischen Eingriffen (z. B. Aufmerksamkeitsrang und Positionskodierung) und stellen fest, dass Optimierer-induzierte spektrale Verschiebungen oft die architektonischen Effekte übersteigen. Diese Ergebnisse legen nahe, dass die Optimierung eine erstklassige Achse der Repräsentationsskalierung darstellt, was das gemeinsame Design von Optimierer und Architektur motiviert.

English

Scaling laws have made language-model performance predictable from model size, data, and compute, but they typically treat the optimizer as a fixed training detail. We show that this assumption misses a fundamental axis of representation scaling: how effectively the optimizer converts added FFN width into utilized spectral capacity. Using eigenspectra of feed-forward network representations, measured through soft and hard spectral-ranks, we find that the same Transformer architecture realizes markedly different spectral scaling laws when trained with different optimizers. Holding architecture and width schedule fixed, AdamW exhibits weak hard-rank scaling (β=0.44) on rare-token (TAIL) representations where learning is known to be hardest, whereas Muon achieves linear scaling (β=1.02) in the same regimes, a 2.3times increase in the scaling exponent. This difference is not reducible to validation loss: AdamW configurations can match low-rank Dion variants in perplexity, under extended training, while exhibiting sharply different spectral geometry, demonstrating that matched loss does not imply matched representation structure. Hard--soft rank asymmetry further reveals that optimizers differ not only in how much capacity is realized, but also in how that capacity is structured across eigenmodes. To disentangle optimizer effects from architectural ones, we compare against architectural interventions (e.g., attention rank and positional encoding), and find that optimizer-induced spectral shifts often exceed the architectural effects. These results suggest optimization as a first-class axis of representation scaling, motivating optimizer--architecture co-design.