Roteamento por Limiar de Especialistas para Modelagem de Linguagem Autoregressiva com Alocação Dinâmica de Computação e Balanceamento de Carga
Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing
March 12, 2026
Autores: Hanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun
cs.AI
Resumo
A Mistura de Especialistas por Escolha de Token (TC-MoE) encaminha cada token para um número fixo de especialistas, limitando a alocação dinâmica de computação e exigindo perdas auxiliares para manter o equilíbrio de carga. Propomos o roteamento por Limiar do Especialista (ET), no qual cada especialista mantém um limiar de média móvel exponencial (EMA) estimado a partir da distribuição global de tokens. Tanto no treinamento quanto na inferência, cada token é roteado independentemente para um especialista se a sua pontuação exceder o limiar desse especialista, permitindo uma alocação dinâmica de computação enquanto alcança o equilíbrio de carga sem perdas auxiliares. Este mecanismo totalmente causal elimina a dependência de outros tokens no lote, tornando-o bem adequado para a modelagem de linguagem autoregressiva. Em experimentos de pré-treinamento escalando para 2,4 bilhões de parâmetros no FineWeb-Edu, o ET alcança uma perda de entropia cruzada 0,067 menor do que o TC-MoE, equivalente a atingir o mesmo desempenho com 1,6 vezes menos tokens.
English
Token-choice Mixture-of-Experts (TC-MoE) routes each token to a fixed number of experts, limiting dynamic computation allocation and requiring auxiliary losses to maintain load balance. We propose Expert Threshold (ET) routing, where each expert maintains an exponential moving average (EMA) threshold estimated from the global token distribution. At both training and inference, each token is independently routed to an expert if its score exceeds the expert's threshold, enabling dynamic computation allocation while achieving load balance without auxiliary losses. This fully causal mechanism eliminates dependence on other tokens in the batch, making it well-suited for autoregressive language modeling. In pretraining experiments scaling to 2.4B parameters on FineWeb-Edu, ET achieves 0.067 lower cross-entropy loss than TC-MoE, equivalent to reaching the same performance with 1.6times fewer tokens.