Modèles d'autonomie des experts
Autonomy-of-Experts Models
January 22, 2025
Auteurs: Ang Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan
cs.AI
Résumé
Les modèles de Mélange d'Experts (MoE) utilisent principalement un routeur pour attribuer des jetons à des modules experts spécifiques, activant ainsi uniquement des paramètres partiels et dépassant souvent les performances des modèles denses. Nous soutenons que la séparation entre la prise de décision du routeur et l'exécution des experts est une question critique mais souvent négligée, entraînant une sélection d'experts sous-optimale et un apprentissage inefficace. Pour remédier à cela, nous proposons l'Autonomie des Experts (AoE), un nouveau paradigme MoE dans lequel les experts se sélectionnent autonomement pour traiter les entrées. AoE repose sur l'idée qu'un expert est conscient de sa capacité à traiter efficacement un jeton, une conscience reflétée dans l'ampleur de ses activations internes. Dans AoE, les routeurs sont supprimés ; à la place, les experts pré-calculent les activations internes pour les entrées et sont classés en fonction de leurs normes d'activation. Seuls les experts les mieux classés poursuivent le passage en avant, tandis que les autres abandonnent. Le surcoût du pré-calcul des activations est réduit grâce à une factorisation des poids de rang faible. Cette approche d'auto-évaluation-puis-comparaison-avec-le-partenaire garantit une meilleure sélection d'experts et un apprentissage efficace. Nous pré-entraînons des modèles de langage ayant de 700M à 4B de paramètres, démontrant qu'AoE surpasse les modèles MoE traditionnels avec une efficacité comparable.
English
Mixture-of-Experts (MoE) models mostly use a router to assign tokens to
specific expert modules, activating only partial parameters and often
outperforming dense models. We argue that the separation between the router's
decision-making and the experts' execution is a critical yet overlooked issue,
leading to suboptimal expert selection and ineffective learning. To address
this, we propose Autonomy-of-Experts (AoE), a novel MoE paradigm in which
experts autonomously select themselves to process inputs. AoE is based on the
insight that an expert is aware of its own capacity to effectively process a
token, an awareness reflected in the scale of its internal activations. In AoE,
routers are removed; instead, experts pre-compute internal activations for
inputs and are ranked based on their activation norms. Only the top-ranking
experts proceed with the forward pass, while the others abort. The overhead of
pre-computing activations is reduced through a low-rank weight factorization.
This self-evaluating-then-partner-comparing approach ensures improved expert
selection and effective learning. We pre-train language models having 700M up
to 4B parameters, demonstrating that AoE outperforms traditional MoE models
with comparable efficiency.Summary
AI-Generated Summary