Unie van Experts: Aanpassing van Hiërarchische Routering aan Gelijkwaardig Gedecentraliseerde Transformers

Samenvatting

Mixture-of-Experts (MoE) verbetert de modelprestaties terwijl de rekenkundige efficiëntie behouden blijft, waardoor het goed geschikt is voor grootschalige toepassingen. Echter, in het bestaande MoE-paradigma werken experts als individuen, waardoor hoogwaardige interacties tussen experts ontbreken. Bovendien zijn ze niet effectief uitgebreid naar aandachtblokken, wat verdere efficiëntieverbeteringen beperkt. Om deze problemen aan te pakken, stellen we Union-of-Experts (UoE) voor, waarbij de transformer wordt opgedeeld in een gelijkwaardige groep experts, en vervolgens dynamische routering wordt toegepast op invoergegevens en experts. Onze aanpak brengt het MoE-ontwerp naar een hoger niveau met drie belangrijke innovaties: (1) We hebben een gelijkwaardige expert-opdeling uitgevoerd op zowel MLP-blokken als aandachtblokken op basis van matrixpartitie in tensorparallelisme. (2) We hebben twee routeringsparadigma's ontwikkeld: patchgewijze gegevensselectie en expertselectie, om routering op verschillende niveaus toe te passen. (3) We ontwerpen de architectuur van het UoE-model, inclusief Selective Multi-Head Attention (SMHA) en Union-of-MLP-Experts (UoME). (4) We ontwikkelen een parallelle implementatie van de routering en rekenoperaties van UoE, en optimaliseren de efficiëntie op basis van hardwareverwerkingsanalyse. De experimenten tonen aan dat het model met UoE Full Attention, state-of-the-art MoE's en efficiënte transformers overtreft in verschillende taken binnen beeld- en natuurlijke taal domeinen. De broncodes zijn beschikbaar op https://github.com/YujiaoYang-work/UoE.

English

Mixture-of-Experts (MoE) enhances model performance while maintaining computational efficiency, making it well-suited for large-scale applications. However, expert in exist MoE paradigm works as an individual, thereby lacking high-quality expert interactions. Moreover, they have not been effectively extended to attention block, which constrains further efficiency improvements. To tackle these issues, we propose Union-of-Experts (UoE), which decomposes transformer into an equitant group of experts, and then implement dynamic routing on input data and experts. Our approach advances MoE design with three key innovations: (1) We conducted equitant expert decomposition on both MLP blocks and attention blocks based on matrix partition in tensor parallelism. (2) We developed two routing paradigms: patch wise data selection and expert selection, to apply routing across different levels. (3) We design the architecture of UoE model, including Selective Multi-Head Attention (SMHA) and Union-of-MLP-Experts (UoME). (4) We develop parallel implementation of UoE's routing and computation operation, and optimize efficiency based on the hardware processing analysis. The experiments demonstrate that the model employed with UoE surpass Full Attention, state-of-art MoEs and efficient transformers in several tasks across image and natural language domains. The source codes are available at https://github.com/YujiaoYang-work/UoE.

Unie van Experts: Aanpassing van Hiërarchische Routering aan Gelijkwaardig Gedecentraliseerde Transformers

Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Samenvatting

Support