Même architecture, capacité différente : Lois d'échelle spectrales induites par l'optimiseur

Résumé

Les lois d'échelle ont rendu la performance des modèles de langage prévisible à partir de la taille du modèle, des données et du calcul, mais elles traitent généralement l'optimiseur comme un détail d'entraînement fixe. Nous montrons que cette hypothèse néglige un axe fondamental du scaling des représentations : l'efficacité avec laquelle l'optimiseur convertit une largeur accrue du FFN en capacité spectrale utilisée. En utilisant les spectres propres des représentations des réseaux feed-forward, mesurés via des rangs spectraux mous et durs, nous constatons qu'une même architecture Transformer présente des lois d'échelle spectrales nettement différentes selon l'optimiseur utilisé. En maintenant l'architecture et le plan de largeur fixes, AdamW présente un faible scaling de rang dur (β = 0,44) sur les représentations de tokens rares (TAIL), où l'apprentissage est connu pour être le plus difficile, tandis que Muon atteint un scaling linéaire (β = 1,02) dans les mêmes régimes, soit une augmentation d'un facteur 2,3 de l'exposant d'échelle. Cette différence ne se réduit pas à la perte de validation : les configurations AdamW peuvent égaler la perplexité de variantes Dion à faible rang, après un entraînement prolongé, tout en présentant une géométrie spectrale nettement différente, démontrant qu'une perte équivalente n'implique pas une structure de représentation équivalente. L'asymétrie de rang dur-mou révèle en outre que les optimiseurs diffèrent non seulement par la quantité de capacité réalisée, mais aussi par la manière dont cette capacité est structurée à travers les modes propres. Pour distinguer les effets des optimiseurs de ceux liés à l'architecture, nous comparons ces effets à des interventions architecturales (par exemple, le rang de l'attention et le codage positionnel) et constatons que les décalages spectraux induits par l'optimiseur dépassent souvent les effets architecturaux. Ces résultats suggèrent que l'optimisation constitue un axe de première classe du scaling des représentations, motivant une co-conception optimiseur–architecture.

English

Scaling laws have made language-model performance predictable from model size, data, and compute, but they typically treat the optimizer as a fixed training detail. We show that this assumption misses a fundamental axis of representation scaling: how effectively the optimizer converts added FFN width into utilized spectral capacity. Using eigenspectra of feed-forward network representations, measured through soft and hard spectral-ranks, we find that the same Transformer architecture realizes markedly different spectral scaling laws when trained with different optimizers. Holding architecture and width schedule fixed, AdamW exhibits weak hard-rank scaling (β=0.44) on rare-token (TAIL) representations where learning is known to be hardest, whereas Muon achieves linear scaling (β=1.02) in the same regimes, a 2.3times increase in the scaling exponent. This difference is not reducible to validation loss: AdamW configurations can match low-rank Dion variants in perplexity, under extended training, while exhibiting sharply different spectral geometry, demonstrating that matched loss does not imply matched representation structure. Hard--soft rank asymmetry further reveals that optimizers differ not only in how much capacity is realized, but also in how that capacity is structured across eigenmodes. To disentangle optimizer effects from architectural ones, we compare against architectural interventions (e.g., attention rank and positional encoding), and find that optimizer-induced spectral shifts often exceed the architectural effects. These results suggest optimization as a first-class axis of representation scaling, motivating optimizer--architecture co-design.