Expertdrempelroutering voor Autoregressieve Taalmodellering met Dynamische Rekenallocatie en Load Balancing

Samenvatting

Token-choice Mixture-of-Experts (TC-MoE) routeert elk token naar een vast aantal experts, wat de dynamische toewijzing van rekenkracht beperkt en aanvullende verliezen vereist om de belastingbalans te behouden. Wij stellen Expert Threshold (ET)-routering voor, waarbij elke expert een exponentieel voortschrijdend gemiddelde (EMA) drempelwaarde handhaaft, geschat op basis van de globale tokenverdeling. Tijdens zowel training als inferentie wordt elk token onafhankelijk naar een expert gerouteerd als zijn score de drempelwaarde van de expert overschrijdt. Dit maakt dynamische toewijzing van rekenkracht mogelijk en bereikt een belastingbalans zonder aanvullende verliezen. Dit volledig causale mechanisme elimineert de afhankelijkheid van andere tokens in de batch, waardoor het bijzonder geschikt is voor autoregressieve taalmodellering. In pre-trainingsexperimenten die oplopen tot 2,4B parameters op FineWeb-Edu, behaalt ET een 0,067 lagere kruis-entropieverlies dan TC-MoE, wat overeenkomt met het bereiken van dezelfde prestaties met 1,6 keer minder tokens.

English

Token-choice Mixture-of-Experts (TC-MoE) routes each token to a fixed number of experts, limiting dynamic computation allocation and requiring auxiliary losses to maintain load balance. We propose Expert Threshold (ET) routing, where each expert maintains an exponential moving average (EMA) threshold estimated from the global token distribution. At both training and inference, each token is independently routed to an expert if its score exceeds the expert's threshold, enabling dynamic computation allocation while achieving load balance without auxiliary losses. This fully causal mechanism eliminates dependence on other tokens in the batch, making it well-suited for autoregressive language modeling. In pretraining experiments scaling to 2.4B parameters on FineWeb-Edu, ET achieves 0.067 lower cross-entropy loss than TC-MoE, equivalent to reaching the same performance with 1.6times fewer tokens.

Expertdrempelroutering voor Autoregressieve Taalmodellering met Dynamische Rekenallocatie en Load Balancing

Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Samenvatting

Support