Misma arquitectura, diferente capacidad: Leyes de escalado espectral inducidas por el optimizador

Resumen

Las leyes de escalamiento han hecho que el rendimiento de los modelos de lenguaje sea predecible a partir del tamaño del modelo, los datos y el cómputo, pero usualmente tratan al optimizador como un detalle fijo del entrenamiento. Mostramos que esta suposición pasa por alto un eje fundamental del escalamiento de representación: la eficacia con la que el optimizador convierte el ancho adicional de la FFN en capacidad espectral utilizada. Utilizando los espectros propios de las representaciones de las redes feed-forward, medidos a través de rangos espectrales suaves y duros, encontramos que la misma arquitectura Transformer manifiesta leyes de escalamiento espectral marcadamente diferentes cuando se entrena con distintos optimizadores. Manteniendo fijas la arquitectura y el programa de anchura, AdamW exhibe un escalamiento de rango duro débil (β=0.44) en las representaciones de tokens raros (COLA) donde se sabe que el aprendizaje es más difícil, mientras que Muon logra un escalamiento lineal (β=1.02) en los mismos regímenes, un aumento de 2.3 veces en el exponente de escalamiento. Esta diferencia no se reduce a la pérdida de validación: las configuraciones de AdamW pueden igualar a las variantes Dion de bajo rango en perplejidad, bajo entrenamiento extendido, mientras presentan una geometría espectral marcadamente diferente, demostrando que una pérdida igualada no implica una estructura de representación igualada. La asimetría entre rango duro y suave revela además que los optimizadores difieren no solo en cuánta capacidad se realiza, sino también en cómo esa capacidad se estructura a través de los modos propios. Para desentrañar los efectos del optimizador de los arquitectónicos, comparamos con intervenciones arquitectónicas (por ejemplo, rango de atención y codificación posicional), y encontramos que los desplazamientos espectrales inducidos por el optimizador a menudo superan los efectos arquitectónicos. Estos resultados sugieren que la optimización es un eje de primera clase en el escalamiento de representación, motivando el co-diseño de optimizador y arquitectura.

English

Scaling laws have made language-model performance predictable from model size, data, and compute, but they typically treat the optimizer as a fixed training detail. We show that this assumption misses a fundamental axis of representation scaling: how effectively the optimizer converts added FFN width into utilized spectral capacity. Using eigenspectra of feed-forward network representations, measured through soft and hard spectral-ranks, we find that the same Transformer architecture realizes markedly different spectral scaling laws when trained with different optimizers. Holding architecture and width schedule fixed, AdamW exhibits weak hard-rank scaling (β=0.44) on rare-token (TAIL) representations where learning is known to be hardest, whereas Muon achieves linear scaling (β=1.02) in the same regimes, a 2.3times increase in the scaling exponent. This difference is not reducible to validation loss: AdamW configurations can match low-rank Dion variants in perplexity, under extended training, while exhibiting sharply different spectral geometry, demonstrating that matched loss does not imply matched representation structure. Hard--soft rank asymmetry further reveals that optimizers differ not only in how much capacity is realized, but also in how that capacity is structured across eigenmodes. To disentangle optimizer effects from architectural ones, we compare against architectural interventions (e.g., attention rank and positional encoding), and find that optimizer-induced spectral shifts often exceed the architectural effects. These results suggest optimization as a first-class axis of representation scaling, motivating optimizer--architecture co-design.