ChatPaper.aiChatPaper

Union d'Experts : Adaptation du routage hiérarchique au transformateur décomposé de manière équivalente

Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

March 4, 2025
Auteurs: Yujiao Yang, Jing Lian, Linhui Li
cs.AI

Résumé

Le modèle Mixture-of-Experts (MoE) améliore les performances tout en maintenant une efficacité computationnelle, ce qui le rend particulièrement adapté aux applications à grande échelle. Cependant, dans le paradigme MoE actuel, chaque expert fonctionne de manière individuelle, ce qui limite les interactions de haute qualité entre experts. De plus, ce paradigme n'a pas été efficacement étendu aux blocs d'attention, ce qui freine les améliorations d'efficacité. Pour résoudre ces problèmes, nous proposons Union-of-Experts (UoE), qui décompose le transformateur en un groupe équilibré d'experts, puis met en œuvre un routage dynamique sur les données d'entrée et les experts. Notre approche innove dans la conception MoE avec trois avancées clés : (1) Nous avons réalisé une décomposition équilibrée des experts sur les blocs MLP et les blocs d'attention, basée sur la partition matricielle en parallélisme tensoriel. (2) Nous avons développé deux paradigmes de routage : la sélection de données par patch et la sélection d'expert, pour appliquer le routage à différents niveaux. (3) Nous avons conçu l'architecture du modèle UoE, incluant l'Attention Multi-Têtes Sélective (SMHA) et l'Union-of-MLP-Experts (UoME). (4) Nous avons mis en œuvre une exécution parallèle des opérations de routage et de calcul de UoE, et optimisé l'efficacité grâce à une analyse du traitement matériel. Les expériences montrent que le modèle équipé de UoE surpasse l'Attention Complète, les MoE de pointe et les transformateurs efficaces dans plusieurs tâches, tant dans le domaine de l'image que du langage naturel. Les codes sources sont disponibles à l'adresse https://github.com/YujiaoYang-work/UoE.
English
Mixture-of-Experts (MoE) enhances model performance while maintaining computational efficiency, making it well-suited for large-scale applications. However, expert in exist MoE paradigm works as an individual, thereby lacking high-quality expert interactions. Moreover, they have not been effectively extended to attention block, which constrains further efficiency improvements. To tackle these issues, we propose Union-of-Experts (UoE), which decomposes transformer into an equitant group of experts, and then implement dynamic routing on input data and experts. Our approach advances MoE design with three key innovations: (1) We conducted equitant expert decomposition on both MLP blocks and attention blocks based on matrix partition in tensor parallelism. (2) We developed two routing paradigms: patch wise data selection and expert selection, to apply routing across different levels. (3) We design the architecture of UoE model, including Selective Multi-Head Attention (SMHA) and Union-of-MLP-Experts (UoME). (4) We develop parallel implementation of UoE's routing and computation operation, and optimize efficiency based on the hardware processing analysis. The experiments demonstrate that the model employed with UoE surpass Full Attention, state-of-art MoEs and efficient transformers in several tasks across image and natural language domains. The source codes are available at https://github.com/YujiaoYang-work/UoE.

Summary

AI-Generated Summary

PDF84March 7, 2025