SwitchHead : Accélération des Transformers grâce à une attention basée sur un mélange d'experts

papers.abstract

Les couches d'auto-attention coûteuses dans les Transformers modernes nécessitent une mémoire et des calculs quadratiques par rapport à la longueur de la séquence. Les méthodes d'approximation existantes sous-performent généralement et ne parviennent pas à obtenir des accélérations significatives en pratique. Nous présentons ici SwitchHead - une méthode novatrice qui réduit à la fois les besoins en calcul et en mémoire, tout en obtenant une accélération en temps réel, tout en égalant les performances de modélisation linguistique des Transformers de référence avec le même budget de paramètres. SwitchHead utilise des couches de Mixture-of-Experts (MoE) pour les projections de valeur et de sortie, et nécessite 4 à 8 fois moins de matrices d'attention que les Transformers standard. Notre nouvelle attention peut également être combinée avec des couches MLP MoE, aboutissant à un modèle Transformer entièrement MoE efficace appelé "SwitchAll". Notre code est public.

English

The costly self-attention layers in modern Transformers require memory and compute quadratic in sequence length. Existing approximation methods usually underperform and fail to obtain significant speedups in practice. Here we present SwitchHead - a novel method that reduces both compute and memory requirements and achieves wall-clock speedup, while matching the language modeling performance of baseline Transformers with the same parameter budget. SwitchHead uses Mixture-of-Experts (MoE) layers for the value and output projections and requires 4 to 8 times fewer attention matrices than standard Transformers. Our novel attention can also be combined with MoE MLP layers, resulting in an efficient fully-MoE "SwitchAll" Transformer model. Our code is public.

SwitchHead : Accélération des Transformers grâce à une attention basée sur un mélange d'experts

SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention

papers.abstract

Support