Instradamento a Soglia Esperta per la Modellazione Linguistica Autoregressiva con Allocazione Dinamica del Calcolo e Bilanciamento del Carico

Abstract

Il Token-choice Mixture-of-Experts (TC-MoE) instrada ogni token a un numero fisso di esperti, limitando l'allocazione dinamica del calcolo e richiedendo perdite ausiliarie per mantenere il bilanciamento del carico. Proponiamo l'instradamento Expert Threshold (ET), in cui ogni esperto mantiene una soglia a media mobile esponenziale (EMA) stimata dalla distribuzione globale dei token. Sia in addestramento che in inferenza, ogni token viene instradato indipendentemente a un esperto se il suo punteggio supera la soglia dell'esperto, consentendo un'allocazione dinamica del calcolo e raggiungendo il bilanciamento del carico senza perdite ausiliarie. Questo meccanismo completamente causale elimina la dipendenza da altri token nel batch, rendendolo particolarmente adatto per il modeling linguistico autoregressivo. In esperimenti di pre-addestramento su scala fino a 2,4 miliardi di parametri su FineWeb-Edu, ET raggiunge una perdita di entropia incrociata inferiore di 0,067 rispetto a TC-MoE, equivalente a raggiungere la stessa performance con 1,6 volte meno token.

English

Token-choice Mixture-of-Experts (TC-MoE) routes each token to a fixed number of experts, limiting dynamic computation allocation and requiring auxiliary losses to maintain load balance. We propose Expert Threshold (ET) routing, where each expert maintains an exponential moving average (EMA) threshold estimated from the global token distribution. At both training and inference, each token is independently routed to an expert if its score exceeds the expert's threshold, enabling dynamic computation allocation while achieving load balance without auxiliary losses. This fully causal mechanism eliminates dependence on other tokens in the batch, making it well-suited for autoregressive language modeling. In pretraining experiments scaling to 2.4B parameters on FineWeb-Edu, ET achieves 0.067 lower cross-entropy loss than TC-MoE, equivalent to reaching the same performance with 1.6times fewer tokens.

Instradamento a Soglia Esperta per la Modellazione Linguistica Autoregressiva con Allocazione Dinamica del Calcolo e Bilanciamento del Carico

Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Abstract

Support