O Muon supera o Adam no aprendizado de memória associativa de cauda longa.

Resumo

O otimizador Muon é consistentemente mais rápido que o Adam no treinamento de Modelos de Linguagem de Grande Escala (LLMs), mas o mecanismo por trás de seu sucesso permanece obscuro. Este artigo desmistifica esse mecanismo através da lente da memória associativa. Ao realizar ablações dos componentes do transformer otimizados pelo Muon, revelamos que os parâmetros de memória associativa dos LLMs, especificamente os pesos de atenção de Valor e Saída (VO) e as Redes Feed-Forward (FFNs), são os principais contribuintes para a superioridade do Muon. Motivados por essa visão de memória associativa, explicamos então a superioridade do Muon em corpora do mundo real, que são intrinsecamente de cauda pesada: algumas classes (classes de cauda) aparecem com muito menos frequência do que outras. A superioridade é explicada por duas propriedades-chave: (i) sua regra de atualização produz consistentemente um espectro singular mais isotrópico do que o Adam; e, como resultado, (ii) em dados de cauda pesada, ele otimiza as classes de cauda de forma mais eficaz do que o Adam. Além de evidências empíricas, confirmamos teoricamente essas descobertas ao analisar um modelo de memória associativa de uma camada sob dados com desequilíbrio de classes. Provamos que o Muon alcança consistentemente um aprendizado equilibrado entre as classes, independentemente dos embeddings de características, enquanto o Adam pode induzir grandes disparidades nos erros de aprendizado dependendo das propriedades dos embeddings. Em resumo, nossas observações empíricas e análises teóricas revelam a vantagem central do Muon: sua regra de atualização está alinhada com a estrutura de produto externo das memórias associativas lineares, permitindo um aprendizado mais equilibrado e eficaz das classes de cauda em distribuições de cauda pesada do que o Adam.

English

The Muon optimizer is consistently faster than Adam in training Large Language Models (LLMs), yet the mechanism underlying its success remains unclear. This paper demystifies this mechanism through the lens of associative memory. By ablating the transformer components optimized by Muon, we reveal that the associative memory parameters of LLMs, namely the Value and Output (VO) attention weights and Feed-Forward Networks (FFNs), are the primary contributors to Muon's superiority. Motivated by this associative memory view, we then explain Muon's superiority on real-world corpora, which are intrinsically heavy-tailed: a few classes (tail classes) appear far less frequently than others. The superiority is explained through two key properties: (i) its update rule consistently yields a more isotropic singular spectrum than Adam; and as a result, (ii) on heavy-tailed data, it optimizes tail classes more effectively than Adam. Beyond empirical evidence, we theoretically confirm these findings by analyzing a one-layer associative memory model under class-imbalanced data. We prove that Muon consistently achieves balanced learning across classes regardless of feature embeddings, whereas Adam can induce large disparities in learning errors depending on embedding properties. In summary, our empirical observations and theoretical analyses reveal Muon's core advantage: its update rule aligns with the outer-product structure of linear associative memories, enabling more balanced and effective learning of tail classes in heavy-tailed distributions than Adam.

O Muon supera o Adam no aprendizado de memória associativa de cauda longa.

Muon Outperforms Adam in Tail-End Associative Memory Learning

Resumo

Support