Especialização em Upcycling: Deslocando a Fronteira de Eficiência Computacional em Mistura de Especialistas

Resumo

A arquitetura Mixture-of-Experts (MoE) tornou-se dominante para a escalagem de grandes modelos de linguagem: modelos de fronteira rotineiramente desacoplam o total de parâmetros do cálculo por *token* por meio de roteamento esparso de especialistas. As leis de escalabilidade mostram que, sob computação ativa fixa, a qualidade do modelo escala de forma previsível com o total de parâmetros, e os MoEs realizam isso aumentando a contagem de especialistas. No entanto, treinar grandes MoEs é dispendioso, pois os requisitos de memória e a comunicação entre dispositivos escalam com a contagem total de parâmetros. Propomos o *expert upcycling*, um método para expandir progressivamente a capacidade do MoE aumentando o número de especialistas durante o pré-treinamento contínuo (CPT). Dado um modelo treinado com E especialistas, o operador de *upcycling* constrói um modelo com mE especialistas por meio de duplicação de especialistas e extensão do roteador, mantendo o roteamento top-K fixo e preservando o custo de inferência por *token*. A duplicação fornece uma inicialização aquecida: o modelo expandido herda as representações aprendidas do *checkpoint* de origem, partindo de uma perda substancialmente menor do que a inicialização aleatória. O CPT subsequente quebra a simetria entre os especialistas duplicados para impulsionar a especialização. Formalizamos o operador de *upcycling* e desenvolvemos uma estrutura teórica que decompõe a lacuna de qualidade em um termo de capacidade e um termo de inicialização. Introduzimos ainda a seleção de especialistas baseada em utilidade, que usa pontuações de importância baseadas em gradiente para guiar uma duplicação não uniforme, mais do que triplicando o fechamento da lacuna quando o CPT é limitado. Em nossos experimentos com 7B-13B de parâmetros totais, o modelo com *upcycling* iguala a linha de base de tamanho fixo na perda de validação, economizando 32% das horas de GPU. Ablações abrangentes em escalas de modelo, taxas de ativação, arquiteturas MoE e orçamentos de treinamento resultam em uma receita prática para implantar o *expert upcycling*, estabelecendo-o como uma alternativa fundamentada e computacionalmente eficiente ao treinamento de grandes modelos MoE a partir do zero.

English

Mixture-of-Experts (MoE) has become the dominant architecture for scaling large language models: frontier models routinely decouple total parameters from per-token computation through sparse expert routing. Scaling laws show that under fixed active computation, model quality scales predictably with total parameters, and MoEs realize this by increasing expert count. However, training large MoEs is expensive, as memory requirements and inter-device communication both scale with total parameter count. We propose expert upcycling, a method for progressively expanding MoE capacity by increasing the number of experts during continued pre-training (CPT). Given a trained E-expert model, the upcycling operator constructs an mE-expert model through expert duplication and router extension while holding top-K routing fixed, preserving per-token inference cost. Duplication provides a warm initialization: the expanded model inherits the source checkpoint's learned representations, starting from a substantially lower loss than random initialization. Subsequent CPT then breaks the symmetry among duplicated experts to drive specialization. We formalize the upcycling operator and develop a theoretical framework decomposing the quality gap into a capacity term and an initialization term. We further introduce utility-based expert selection, which uses gradient-based importance scores to guide non-uniform duplication, more than tripling gap closure when CPT is limited. In our 7B-13B total parameter experiments, the upcycled model matches the fixed-size baseline on validation loss while saving 32% of GPU hours. Comprehensive ablations across model scales, activation ratios, MoE architectures, and training budgets yield a practical recipe for deploying expert upcycling, establishing it as a principled, compute-efficient alternative to training large MoE models from scratch.

Especialização em Upcycling: Deslocando a Fronteira de Eficiência Computacional em Mistura de Especialistas

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

Resumo

Support