Muon overtreft Adam in het leren van associatief geheugen aan de staartkant

Samenvatting

De Muon-optimizer is consistent sneller dan Adam bij het trainen van grote taalmmodellen (LLM's), maar het mechanisme achter dit succes blijft onduidelijk. Dit artikel ontrafelt dit mechanisme door de lens van associatief geheugen. Door de transformer-componenten die door Muon worden geoptimaliseerd te verwijderen, tonen we aan dat de associatieve geheugenparameters van LLM's, namelijk de Value- en Output (VO) aandachtgewichten en Feed-Forward Networks (FFN's), de belangrijkste bijdragers zijn aan de superioriteit van Muon. Gemotiveerd door dit associatieve geheugenperspectief, verklaren we vervolgens de superioriteit van Muon op real-world corpora, die intrinsiek zwaarstaartig zijn: een paar klassen (staartklassen) komen veel minder vaak voor dan andere. De superioriteit wordt verklaard door twee sleutel eigenschappen: (i) de update-regel levert consistent een meer isotroop singulier spectrum op dan Adam; en als gevolg daarvan, (ii) optimaliseert het op zwaarstaartige data staartklassen effectiever dan Adam. Naast empirisch bevestigen we deze bevindingen theoretisch door een eenlaags associatief geheugenmodel te analyseren onder klasse-onbalansdata. We bewijzen dat Muon consistent gebalanceerd leren over klassen bereikt, ongeacht feature embeddings, terwijl Adam grote verschillen in leerfouten kan veroorzaken afhankelijk van de eigenschappen van embeddings. Samengevat onthullen onze empirische observaties en theoretische analyses het kernvoordeel van Muon: de update-regel sluit aan bij de outer-product structuur van lineaire associatieve geheugens, waardoor het meer gebalanceerd en effectief leren van staartklassen in zwaarstaartige verdelingen mogelijk maakt dan Adam.

English

The Muon optimizer is consistently faster than Adam in training Large Language Models (LLMs), yet the mechanism underlying its success remains unclear. This paper demystifies this mechanism through the lens of associative memory. By ablating the transformer components optimized by Muon, we reveal that the associative memory parameters of LLMs, namely the Value and Output (VO) attention weights and Feed-Forward Networks (FFNs), are the primary contributors to Muon's superiority. Motivated by this associative memory view, we then explain Muon's superiority on real-world corpora, which are intrinsically heavy-tailed: a few classes (tail classes) appear far less frequently than others. The superiority is explained through two key properties: (i) its update rule consistently yields a more isotropic singular spectrum than Adam; and as a result, (ii) on heavy-tailed data, it optimizes tail classes more effectively than Adam. Beyond empirical evidence, we theoretically confirm these findings by analyzing a one-layer associative memory model under class-imbalanced data. We prove that Muon consistently achieves balanced learning across classes regardless of feature embeddings, whereas Adam can induce large disparities in learning errors depending on embedding properties. In summary, our empirical observations and theoretical analyses reveal Muon's core advantage: its update rule aligns with the outer-product structure of linear associative memories, enabling more balanced and effective learning of tail classes in heavy-tailed distributions than Adam.

Muon overtreft Adam in het leren van associatief geheugen aan de staartkant

Muon Outperforms Adam in Tail-End Associative Memory Learning

Samenvatting

Support