Unione di Esperti: Adattamento del Routing Gerarchico al Trasformatore Decomposto in Modo Equivalente
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer
March 4, 2025
Autori: Yujiao Yang, Jing Lian, Linhui Li
cs.AI
Abstract
Il Mixture-of-Experts (MoE) migliora le prestazioni del modello mantenendo l'efficienza computazionale, rendendolo particolarmente adatto per applicazioni su larga scala. Tuttavia, nell'attuale paradigma MoE, ogni esperto opera individualmente, limitando così interazioni di alta qualità tra esperti. Inoltre, non è stato efficacemente esteso ai blocchi di attenzione, il che ostacola ulteriori miglioramenti in termini di efficienza. Per affrontare questi problemi, proponiamo Union-of-Experts (UoE), che scompone il transformer in un gruppo equivalente di esperti e implementa un routing dinamico sui dati di input e sugli esperti. Il nostro approccio avanza il design MoE con tre innovazioni chiave: (1) Abbiamo eseguito una scomposizione equivalente degli esperti sia sui blocchi MLP che sui blocchi di attenzione, basandoci sulla partizione matriciale nel parallelismo tensoriale. (2) Abbiamo sviluppato due paradigmi di routing: selezione dati a livello di patch e selezione degli esperti, per applicare il routing a diversi livelli. (3) Abbiamo progettato l'architettura del modello UoE, inclusa l'Attention Multi-Head Selettiva (SMHA) e l'Union-of-MLP-Experts (UoME). (4) Abbiamo implementato in parallelo le operazioni di routing e calcolo di UoE, ottimizzando l'efficienza basandoci sull'analisi dell'elaborazione hardware. Gli esperimenti dimostrano che il modello impiegato con UoE supera l'Attention Completa, i MoE all'avanguardia e i transformer efficienti in diverse attività nei domini delle immagini e del linguaggio naturale. I codici sorgenti sono disponibili all'indirizzo https://github.com/YujiaoYang-work/UoE.
English
Mixture-of-Experts (MoE) enhances model performance while maintaining
computational efficiency, making it well-suited for large-scale applications.
However, expert in exist MoE paradigm works as an individual, thereby lacking
high-quality expert interactions. Moreover, they have not been effectively
extended to attention block, which constrains further efficiency improvements.
To tackle these issues, we propose Union-of-Experts (UoE), which decomposes
transformer into an equitant group of experts, and then implement dynamic
routing on input data and experts. Our approach advances MoE design with three
key innovations: (1) We conducted equitant expert decomposition on both MLP
blocks and attention blocks based on matrix partition in tensor parallelism.
(2) We developed two routing paradigms: patch wise data selection and expert
selection, to apply routing across different levels. (3) We design the
architecture of UoE model, including Selective Multi-Head Attention (SMHA) and
Union-of-MLP-Experts (UoME). (4) We develop parallel implementation of UoE's
routing and computation operation, and optimize efficiency based on the
hardware processing analysis. The experiments demonstrate that the model
employed with UoE surpass Full Attention, state-of-art MoEs and efficient
transformers in several tasks across image and natural language domains. The
source codes are available at https://github.com/YujiaoYang-work/UoE.Summary
AI-Generated Summary