Approximation de réseaux feedforward à deux couches pour des Transformers efficaces
Approximating Two-Layer Feedforward Networks for Efficient Transformers
October 16, 2023
Auteurs: Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber
cs.AI
Résumé
Comment réduire les besoins en calcul et en mémoire des réseaux de neurones (NNs) sans sacrifier les performances ? De nombreux travaux récents utilisent des mélanges clairsemés d'experts (MoEs) pour construire des modèles de langage (LMs) de grande taille et efficaces en ressources. Nous introduisons ici plusieurs perspectives novatrices sur les MoEs, en présentant un cadre général qui unifie diverses méthodes pour approximer les NNs à deux couches (par exemple, les blocs feedforward des Transformers), y compris les mémoires à clés de produit (PKMs). En tirant parti des insights de ce cadre, nous proposons des méthodes pour améliorer à la fois les MoEs et les PKMs. Contrairement aux travaux antérieurs qui comparent les MoEs avec des bases denses dans des conditions de calcul égal, notre condition d'évaluation est celle de paramètres égaux, ce qui est crucial pour évaluer correctement les LMs. Nous montrons que nos MoEs sont compétitifs avec le Transformer-XL dense sur les ensembles de données WikiText-103 et enwiki8 à deux échelles différentes, tout en étant beaucoup plus efficaces en ressources. Cela démontre que les MoEs sont pertinents non seulement pour les LMs extrêmement grands, mais aussi pour les LMs efficaces en ressources à toute échelle. Notre code est public.
English
How to reduce compute and memory requirements of neural networks (NNs)
without sacrificing performance? Many recent works use sparse Mixtures of
Experts (MoEs) to build resource-efficient large language models (LMs). Here we
introduce several novel perspectives on MoEs, presenting a general framework
that unifies various methods to approximate two-layer NNs (e.g., feedforward
blocks of Transformers), including product-key memories (PKMs). Leveraging
insights from this framework, we propose methods to improve both MoEs and PKMs.
Unlike prior work that compares MoEs with dense baselines under the
compute-equal condition, our evaluation condition is parameter-equal, which is
crucial to properly evaluate LMs. We show that our MoEs are competitive with
the dense Transformer-XL on both the WikiText-103 and enwiki8 datasets at two
different scales, while being much more resource efficient. This demonstrates
that MoEs are relevant not only to extremely large LMs but also to any-scale
resource-efficient LMs. Our code is public.