Unie van Experts: Aanpassing van Hiërarchische Routering aan Gelijkwaardig Gedecentraliseerde Transformers
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer
March 4, 2025
Auteurs: Yujiao Yang, Jing Lian, Linhui Li
cs.AI
Samenvatting
Mixture-of-Experts (MoE) verbetert de modelprestaties terwijl de rekenkundige efficiëntie behouden blijft, waardoor het goed geschikt is voor grootschalige toepassingen. Echter, in het bestaande MoE-paradigma werken experts als individuen, waardoor hoogwaardige interacties tussen experts ontbreken. Bovendien zijn ze niet effectief uitgebreid naar aandachtblokken, wat verdere efficiëntieverbeteringen beperkt. Om deze problemen aan te pakken, stellen we Union-of-Experts (UoE) voor, waarbij de transformer wordt opgedeeld in een gelijkwaardige groep experts, en vervolgens dynamische routering wordt toegepast op invoergegevens en experts. Onze aanpak brengt het MoE-ontwerp naar een hoger niveau met drie belangrijke innovaties: (1) We hebben een gelijkwaardige expert-opdeling uitgevoerd op zowel MLP-blokken als aandachtblokken op basis van matrixpartitie in tensorparallelisme. (2) We hebben twee routeringsparadigma's ontwikkeld: patchgewijze gegevensselectie en expertselectie, om routering op verschillende niveaus toe te passen. (3) We ontwerpen de architectuur van het UoE-model, inclusief Selective Multi-Head Attention (SMHA) en Union-of-MLP-Experts (UoME). (4) We ontwikkelen een parallelle implementatie van de routering en rekenoperaties van UoE, en optimaliseren de efficiëntie op basis van hardwareverwerkingsanalyse. De experimenten tonen aan dat het model met UoE Full Attention, state-of-the-art MoE's en efficiënte transformers overtreft in verschillende taken binnen beeld- en natuurlijke taal domeinen. De broncodes zijn beschikbaar op https://github.com/YujiaoYang-work/UoE.
English
Mixture-of-Experts (MoE) enhances model performance while maintaining
computational efficiency, making it well-suited for large-scale applications.
However, expert in exist MoE paradigm works as an individual, thereby lacking
high-quality expert interactions. Moreover, they have not been effectively
extended to attention block, which constrains further efficiency improvements.
To tackle these issues, we propose Union-of-Experts (UoE), which decomposes
transformer into an equitant group of experts, and then implement dynamic
routing on input data and experts. Our approach advances MoE design with three
key innovations: (1) We conducted equitant expert decomposition on both MLP
blocks and attention blocks based on matrix partition in tensor parallelism.
(2) We developed two routing paradigms: patch wise data selection and expert
selection, to apply routing across different levels. (3) We design the
architecture of UoE model, including Selective Multi-Head Attention (SMHA) and
Union-of-MLP-Experts (UoME). (4) We develop parallel implementation of UoE's
routing and computation operation, and optimize efficiency based on the
hardware processing analysis. The experiments demonstrate that the model
employed with UoE surpass Full Attention, state-of-art MoEs and efficient
transformers in several tasks across image and natural language domains. The
source codes are available at https://github.com/YujiaoYang-work/UoE.Summary
AI-Generated Summary