ChatPaper.aiChatPaper

Praktische efficiëntie van Muon voor vooraf trainen

Practical Efficiency of Muon for Pretraining

May 4, 2025
Auteurs: Essential AI, Ishaan Shah, Anthony M. Polloreno, Karl Stratos, Philip Monk, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Ashish Tanwer, Darsh J Shah, Khoi Nguyen, Kurt Smith, Michael Callahan, Michael Pust, Mohit Parmar, Peter Rushton, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Somanshu Singla, Tim Romanski, Yash Vanjani, Ashish Vaswani
cs.AI

Samenvatting

We tonen aan dat Muon, de eenvoudigste implementatie van een tweede-orde optimalisator, het Pareto-front expliciet uitbreidt ten opzichte van AdamW in de afweging tussen rekentijd en prestaties. We constateren dat Muon effectiever is dan AdamW in het behouden van data-efficiëntie bij grote batchgroottes, ver boven de zogenaamde kritische batchgrootte, terwijl het rekenkundig efficiënt blijft, wat economischer trainen mogelijk maakt. We onderzoeken de combinatie van Muon en de maximale update-parameterisatie (muP) voor efficiënte hyperparameteroverdracht en presenteren een eenvoudig telescopisch algoritme dat rekening houdt met alle bronnen van fouten in muP, terwijl het slechts een bescheiden overhead in resources introduceert. We valideren onze bevindingen door middel van uitgebreide experimenten met modelgroottes tot vier miljard parameters en ablatiestudies op de dataverdeling en architectuur.
English
We demonstrate that Muon, the simplest instantiation of a second-order optimizer, explicitly expands the Pareto frontier over AdamW on the compute-time tradeoff. We find that Muon is more effective than AdamW in retaining data efficiency at large batch sizes, far beyond the so-called critical batch size, while remaining computationally efficient, thus enabling more economical training. We study the combination of Muon and the maximal update parameterization (muP) for efficient hyperparameter transfer and present a simple telescoping algorithm that accounts for all sources of error in muP while introducing only a modest overhead in resources. We validate our findings through extensive experiments with model sizes up to four billion parameters and ablations on the data distribution and architecture.
PDF372May 6, 2025