ChatPaper.aiChatPaper

μ-Paramétrisation pour les Mélanges d'Experts

μ-Parametrization for Mixture of Experts

August 13, 2025
papers.authors: Jan Małaśnicki, Kamil Ciebiera, Mateusz Boruń, Maciej Pióro, Jan Ludziejewski, Maciej Stefaniak, Michał Krutul, Sebastian Jaszczur, Marek Cygan, Kamil Adamczewski, Jakub Krajewski
cs.AI

papers.abstract

Ces dernières années ont vu un intérêt croissant et une adoption accrue des LLMs, avec muTransfer devenant une technique clé pour le réglage des hyperparamètres dans l'entraînement à grande échelle. Parallèlement, l'architecture Mixture-of-Experts (MoE) s'est imposée comme une approche de premier plan dans les modèles extrêmement volumineux. Cependant, l'intersection de ces deux avancées est restée inexplorée. Dans ce travail, nous dérivons une mu-Paramétrisation (muP) pour MoE, fournissant des garanties théoriques pour l'apprentissage des caractéristiques à travers les largeurs de modèle, tant dans le routeur que dans les experts. Nous validons empiriquement notre paramétrisation et étudions en outre comment la mise à l'échelle du nombre d'experts et de la granularité affecte le taux d'apprentissage optimal.
English
Recent years have seen a growing interest and adoption of LLMs, with muTransfer becoming a key technique for tuning hyperparameters in large-scale training. Meanwhile, Mixture-of-Experts (MoE) has emerged as a leading architecture in extremely large models. However, the intersection of these two advancements has remained unexplored. In this work, we derive a mu-Parameterization (muP) for MoE, providing theoretical guarantees for feature learning across model widths in both the router and experts. We empirically validate our parameterization and further investigate how scaling the number of experts and granularity affects the optimal learning rate.
PDF32August 14, 2025