ChatPaper.aiChatPaper

μ-Parametrisering voor Mengsel van Experts

μ-Parametrization for Mixture of Experts

August 13, 2025
Auteurs: Jan Małaśnicki, Kamil Ciebiera, Mateusz Boruń, Maciej Pióro, Jan Ludziejewski, Maciej Stefaniak, Michał Krutul, Sebastian Jaszczur, Marek Cygan, Kamil Adamczewski, Jakub Krajewski
cs.AI

Samenvatting

De afgelopen jaren is er een groeiende interesse en adoptie van LLM's (Large Language Models) te zien, waarbij muTransfer een belangrijke techniek is geworden voor het afstemmen van hyperparameters bij grootschalige training. Tegelijkertijd is Mixture-of-Experts (MoE) naar voren gekomen als een toonaangevende architectuur in extreem grote modellen. Het snijvlak van deze twee ontwikkelingen is echter nog onontgonnen gebleven. In dit werk leiden we een mu-Parameterisatie (muP) af voor MoE, waarbij we theoretische garanties bieden voor feature learning over verschillende modelbreedtes, zowel in de router als in de experts. We valideren onze parameterisatie empirisch en onderzoeken verder hoe het schalen van het aantal experts en de granulariteit de optimale leerrate beïnvloedt.
English
Recent years have seen a growing interest and adoption of LLMs, with muTransfer becoming a key technique for tuning hyperparameters in large-scale training. Meanwhile, Mixture-of-Experts (MoE) has emerged as a leading architecture in extremely large models. However, the intersection of these two advancements has remained unexplored. In this work, we derive a mu-Parameterization (muP) for MoE, providing theoretical guarantees for feature learning across model widths in both the router and experts. We empirically validate our parameterization and further investigate how scaling the number of experts and granularity affects the optimal learning rate.
PDF102August 14, 2025