ChatPaper.aiChatPaper

UMoE: Unificatie van aandacht en FFN met gedeelde experts

UMoE: Unifying Attention and FFN with Shared Experts

May 12, 2025
Auteurs: Yuanhang Yang, Chaozheng Wang, Jing Li
cs.AI

Samenvatting

Sparse Mixture of Experts (MoE)-architecturen zijn naar voren gekomen als een veelbelovende aanpak voor het schalen van Transformer-modellen. Terwijl initiële werken MoE voornamelijk integreerden in feedforward netwerk (FFN)-lagen, hebben recente studies het MoE-paradigma uitgebreid naar aandachtslagen om de modelprestaties te verbeteren. Bestaande op aandacht gebaseerde MoE-lagen vereisen echter gespecialiseerde implementaties en vertonen suboptimale prestaties in vergelijking met hun op FFN gebaseerde tegenhangers. In dit artikel streven we ernaar de MoE-ontwerpen in aandacht- en FFN-lagen te verenigen door een nieuwe herformulering van het aandachtmechanisme te introduceren, waarbij een onderliggende FFN-achtige structuur binnen aandachtmodules wordt onthuld. Onze voorgestelde architectuur, UMoE, bereikt superieure prestaties via op aandacht gebaseerde MoE-lagen, terwijl efficiënte parametersharing tussen FFN- en aandachtcomponenten mogelijk wordt gemaakt.
English
Sparse Mixture of Experts (MoE) architectures have emerged as a promising approach for scaling Transformer models. While initial works primarily incorporated MoE into feed-forward network (FFN) layers, recent studies have explored extending the MoE paradigm to attention layers to enhance model performance. However, existing attention-based MoE layers require specialized implementations and demonstrate suboptimal performance compared to their FFN-based counterparts. In this paper, we aim to unify the MoE designs in attention and FFN layers by introducing a novel reformulation of the attention mechanism, revealing an underlying FFN-like structure within attention modules. Our proposed architecture, UMoE, achieves superior performance through attention-based MoE layers while enabling efficient parameter sharing between FFN and attention components.

Summary

AI-Generated Summary

PDF82May 13, 2025