Unione di Esperti: Adattamento del Routing Gerarchico al Trasformatore Decomposto in Modo Equivalente

Abstract

Il Mixture-of-Experts (MoE) migliora le prestazioni del modello mantenendo l'efficienza computazionale, rendendolo particolarmente adatto per applicazioni su larga scala. Tuttavia, nell'attuale paradigma MoE, ogni esperto opera individualmente, limitando così interazioni di alta qualità tra esperti. Inoltre, non è stato efficacemente esteso ai blocchi di attenzione, il che ostacola ulteriori miglioramenti in termini di efficienza. Per affrontare questi problemi, proponiamo Union-of-Experts (UoE), che scompone il transformer in un gruppo equivalente di esperti e implementa un routing dinamico sui dati di input e sugli esperti. Il nostro approccio avanza il design MoE con tre innovazioni chiave: (1) Abbiamo eseguito una scomposizione equivalente degli esperti sia sui blocchi MLP che sui blocchi di attenzione, basandoci sulla partizione matriciale nel parallelismo tensoriale. (2) Abbiamo sviluppato due paradigmi di routing: selezione dati a livello di patch e selezione degli esperti, per applicare il routing a diversi livelli. (3) Abbiamo progettato l'architettura del modello UoE, inclusa l'Attention Multi-Head Selettiva (SMHA) e l'Union-of-MLP-Experts (UoME). (4) Abbiamo implementato in parallelo le operazioni di routing e calcolo di UoE, ottimizzando l'efficienza basandoci sull'analisi dell'elaborazione hardware. Gli esperimenti dimostrano che il modello impiegato con UoE supera l'Attention Completa, i MoE all'avanguardia e i transformer efficienti in diverse attività nei domini delle immagini e del linguaggio naturale. I codici sorgenti sono disponibili all'indirizzo https://github.com/YujiaoYang-work/UoE.

English

Mixture-of-Experts (MoE) enhances model performance while maintaining computational efficiency, making it well-suited for large-scale applications. However, expert in exist MoE paradigm works as an individual, thereby lacking high-quality expert interactions. Moreover, they have not been effectively extended to attention block, which constrains further efficiency improvements. To tackle these issues, we propose Union-of-Experts (UoE), which decomposes transformer into an equitant group of experts, and then implement dynamic routing on input data and experts. Our approach advances MoE design with three key innovations: (1) We conducted equitant expert decomposition on both MLP blocks and attention blocks based on matrix partition in tensor parallelism. (2) We developed two routing paradigms: patch wise data selection and expert selection, to apply routing across different levels. (3) We design the architecture of UoE model, including Selective Multi-Head Attention (SMHA) and Union-of-MLP-Experts (UoME). (4) We develop parallel implementation of UoE's routing and computation operation, and optimize efficiency based on the hardware processing analysis. The experiments demonstrate that the model employed with UoE surpass Full Attention, state-of-art MoEs and efficient transformers in several tasks across image and natural language domains. The source codes are available at https://github.com/YujiaoYang-work/UoE.

Unione di Esperti: Adattamento del Routing Gerarchico al Trasformatore Decomposto in Modo Equivalente

Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Abstract

Support