ChatPaper.aiChatPaper

Kopplung von Experten und Routern in Mixture-of-Experts durch einen Auxiliary Loss

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

December 29, 2025
papers.authors: Ang Lv, Jin Ma, Yiyuan Ma, Siyuan Qiao
cs.AI

papers.abstract

Mixture-of-Experts (MoE)-Modelle verfügen über keine expliziten Beschränkungen, um sicherzustellen, dass die Entscheidungen des Routers gut mit den Fähigkeiten der Experten übereinstimmen, was letztlich die Modellleistung begrenzt. Um dies zu beheben, schlagen wir den Expert-Router-Coupling (ERC)-Loss vor, einen leichtgewichtigen Zusatzverlust, der die Entscheidungen des Routers eng mit den Expertenfähigkeiten koppelt. Unser Ansatz behandelt die Router-Einbettung jedes Experten als Stellvertreter-Token (Proxy-Token) für die diesem Experten zugewiesenen Token und führt perturbierte Router-Einbettungen durch die Experten, um interne Aktivierungen zu erhalten. Der ERC-Loss erzwingt zwei Beschränkungen für diese Aktivierungen: (1) Jeder Experte muss für sein eigenes Stellvertreter-Token eine höhere Aktivierung zeigen als für die Stellvertreter-Token jedes anderen Experten. (2) Jedes Stellvertreter-Token muss eine stärkere Aktivierung von seinem entsprechenden Experten hervorrufen als von jedem anderen Experten. Diese Beschränkungen stellen gemeinsam sicher, dass jede Router-Einbettung die Fähigkeit ihres entsprechenden Experten treu repräsentiert, während sich jeder Experte auf die Verarbeitung der tatsächlich an ihn gerouteten Token spezialisiert. Der ERC-Loss ist recheneffizient und arbeitet nur mit n² Aktivierungen, wobei n die Anzahl der Experten ist. Dies stellt eine feste Kostenlast dar, die unabhängig von der Batch-Größe ist, im Gegensatz zu früheren Kopplungsmethoden, die mit der Anzahl der Token skalierten (oft Millionen pro Batch). Durch Pre-Training von MoE-LLMs mit 3B bis 15B Parametern und umfangreiche Analysen an Billionen von Token demonstrieren wir die Wirksamkeit des ERC-Loss. Darüber hinaus bietet der ERC-Loss eine flexible Kontrolle und quantitative Verfolgung des Experten-Spezialisierungsgrades während des Trainings, was wertvolle Einblicke in MoEs liefert.
English
Mixture-of-Experts (MoE) models lack explicit constraints to ensure the router's decisions align well with the experts' capabilities, which ultimately limits model performance. To address this, we propose expert-router coupling (ERC) loss, a lightweight auxiliary loss that tightly couples the router's decisions with expert capabilities. Our approach treats each expert's router embedding as a proxy token for the tokens assigned to that expert, and feeds perturbed router embeddings through the experts to obtain internal activations. The ERC loss enforces two constraints on these activations: (1) Each expert must exhibit higher activation for its own proxy token than for the proxy tokens of any other expert. (2) Each proxy token must elicit stronger activation from its corresponding expert than from any other expert. These constraints jointly ensure that each router embedding faithfully represents its corresponding expert's capability, while each expert specializes in processing the tokens actually routed to it. The ERC loss is computationally efficient, operating only on n^2 activations, where n is the number of experts. This represents a fixed cost independent of batch size, unlike prior coupling methods that scale with the number of tokens (often millions per batch). Through pre-training MoE-LLMs ranging from 3B to 15B parameters and extensive analysis on trillions of tokens, we demonstrate the effectiveness of the ERC loss. Moreover, the ERC loss offers flexible control and quantitative tracking of expert specialization levels during training, providing valuable insights into MoEs.
PDF701December 31, 2025