Modelos de Autonomia de Especialistas
Autonomy-of-Experts Models
January 22, 2025
Autores: Ang Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan
cs.AI
Resumo
Os modelos de Mixture-of-Experts (MoE) geralmente utilizam um roteador para atribuir tokens a módulos de especialistas específicos, ativando apenas parâmetros parciais e frequentemente superando modelos densos. Argumentamos que a separação entre a tomada de decisão do roteador e a execução dos especialistas é uma questão crítica, porém negligenciada, levando a uma seleção de especialistas subótima e a uma aprendizagem ineficaz. Para resolver isso, propomos Autonomia-dos-Especialistas (AoE), um novo paradigma de MoE no qual os especialistas selecionam autonomamente a si mesmos para processar entradas. O AoE é baseado na percepção de que um especialista está ciente de sua própria capacidade de processar efetivamente um token, uma consciência refletida na escala de suas ativações internas. No AoE, os roteadores são removidos; em vez disso, os especialistas pré-calculam ativações internas para as entradas e são classificados com base em suas normas de ativação. Apenas os especialistas mais bem classificados prosseguem com a passagem direta, enquanto os outros são abortados. O custo de pré-calcular ativações é reduzido por meio de uma fatorização de peso de baixa classificação. Esta abordagem de autoavaliação-seguida-de-comparação-com-parceiros garante uma seleção de especialistas aprimorada e uma aprendizagem eficaz. Pré-treinamos modelos de linguagem com 700M até 4B de parâmetros, demonstrando que o AoE supera os modelos tradicionais de MoE com eficiência comparável.
English
Mixture-of-Experts (MoE) models mostly use a router to assign tokens to
specific expert modules, activating only partial parameters and often
outperforming dense models. We argue that the separation between the router's
decision-making and the experts' execution is a critical yet overlooked issue,
leading to suboptimal expert selection and ineffective learning. To address
this, we propose Autonomy-of-Experts (AoE), a novel MoE paradigm in which
experts autonomously select themselves to process inputs. AoE is based on the
insight that an expert is aware of its own capacity to effectively process a
token, an awareness reflected in the scale of its internal activations. In AoE,
routers are removed; instead, experts pre-compute internal activations for
inputs and are ranked based on their activation norms. Only the top-ranking
experts proceed with the forward pass, while the others abort. The overhead of
pre-computing activations is reduced through a low-rank weight factorization.
This self-evaluating-then-partner-comparing approach ensures improved expert
selection and effective learning. We pre-train language models having 700M up
to 4B parameters, demonstrating that AoE outperforms traditional MoE models
with comparable efficiency.Summary
AI-Generated Summary