Mesma Arquitetura, Capacidade Diferente: Leis de Escala Espectral Induzidas pelo Otimizador

Resumo

Leis de escala tornaram o desempenho de modelos de linguagem previsível a partir do tamanho do modelo, dos dados e do custo computacional, mas normalmente tratam o otimizador como um detalhe fixo do treinamento. Mostramos que essa suposição negligencia um eixo fundamental de escalonamento de representação: a eficácia com que o otimizador converte o aumento da largura da FFN em capacidade espectral utilizada. Utilizando espectros próprios de representações de redes feed-forward, medidos por ranques espectrais suave e rígido, descobrimos que a mesma arquitetura Transformer apresenta leis de escala espectral marcadamente diferentes quando treinada com otimizadores distintos. Mantendo fixos a arquitetura e o cronograma de largura, o AdamW exibe um escalonamento fraco de ranque rígido (β=0,44) em representações de tokens raros (TAIL), onde se sabe que o aprendizado é mais difícil, enquanto o Muon alcança um escalonamento linear (β=1,02) nos mesmos regimes, um aumento de 2,3 vezes no expoente de escala. Essa diferença não se reduz à perda de validação: configurações do AdamW podem igualar variantes Dion de ranque baixo em perplexidade, sob treinamento estendido, ao mesmo tempo que exibem uma geometria espectral nitidamente diferente, demonstrando que perda correspondente não implica estrutura de representação correspondente. A assimetria de ranque rígido-suave revela ainda que os otimizadores diferem não apenas na quantidade de capacidade realizada, mas também em como essa capacidade é estruturada entre os autômodos. Para separar os efeitos do otimizador dos efeitos arquitetônicos, comparamos com intervenções arquiteturais (por exemplo, ranque de atenção e codificação posicional) e descobrimos que os desvios espectrais induzidos pelo otimizador frequentemente superam os efeitos arquitetônicos. Esses resultados sugerem a otimização como um eixo de primeira classe do escalonamento de representação, motivando o codesign otimizador-arquitetura.

English

Scaling laws have made language-model performance predictable from model size, data, and compute, but they typically treat the optimizer as a fixed training detail. We show that this assumption misses a fundamental axis of representation scaling: how effectively the optimizer converts added FFN width into utilized spectral capacity. Using eigenspectra of feed-forward network representations, measured through soft and hard spectral-ranks, we find that the same Transformer architecture realizes markedly different spectral scaling laws when trained with different optimizers. Holding architecture and width schedule fixed, AdamW exhibits weak hard-rank scaling (β=0.44) on rare-token (TAIL) representations where learning is known to be hardest, whereas Muon achieves linear scaling (β=1.02) in the same regimes, a 2.3times increase in the scaling exponent. This difference is not reducible to validation loss: AdamW configurations can match low-rank Dion variants in perplexity, under extended training, while exhibiting sharply different spectral geometry, demonstrating that matched loss does not imply matched representation structure. Hard--soft rank asymmetry further reveals that optimizers differ not only in how much capacity is realized, but also in how that capacity is structured across eigenmodes. To disentangle optimizer effects from architectural ones, we compare against architectural interventions (e.g., attention rank and positional encoding), and find that optimizer-induced spectral shifts often exceed the architectural effects. These results suggest optimization as a first-class axis of representation scaling, motivating optimizer--architecture co-design.