Benadering van tweelaagse feedforward-netwerken voor efficiënte Transformers
Approximating Two-Layer Feedforward Networks for Efficient Transformers
October 16, 2023
Auteurs: Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber
cs.AI
Samenvatting
Hoe kunnen we de reken- en geheugenvereisten van neurale netwerken (NNs) verminderen zonder in te leveren op prestaties? Veel recente werken gebruiken sparse Mixtures of Experts (MoEs) om resource-efficiënte grote taalmodellen (LMs) te bouwen. Hier introduceren we verschillende nieuwe perspectieven op MoEs en presenteren we een algemeen raamwerk dat verschillende methoden verenigt om twee-laagse NNs te benaderen (bijvoorbeeld feedforward-blokken van Transformers), inclusief product-key memories (PKMs). Door inzichten uit dit raamwerk te benutten, stellen we methoden voor om zowel MoEs als PKMs te verbeteren. In tegenstelling tot eerder werk dat MoEs vergelijkt met dense baselines onder de compute-gelijke voorwaarde, is onze evaluatievoorwaarde parameter-gelijk, wat cruciaal is om LMs correct te evalueren. We laten zien dat onze MoEs competitief zijn met de dense Transformer-XL op zowel de WikiText-103 als de enwiki8 datasets op twee verschillende schalen, terwijl ze veel resource-efficiënter zijn. Dit toont aan dat MoEs niet alleen relevant zijn voor extreem grote LMs, maar ook voor resource-efficiënte LMs van elke schaal. Onze code is openbaar.
English
How to reduce compute and memory requirements of neural networks (NNs)
without sacrificing performance? Many recent works use sparse Mixtures of
Experts (MoEs) to build resource-efficient large language models (LMs). Here we
introduce several novel perspectives on MoEs, presenting a general framework
that unifies various methods to approximate two-layer NNs (e.g., feedforward
blocks of Transformers), including product-key memories (PKMs). Leveraging
insights from this framework, we propose methods to improve both MoEs and PKMs.
Unlike prior work that compares MoEs with dense baselines under the
compute-equal condition, our evaluation condition is parameter-equal, which is
crucial to properly evaluate LMs. We show that our MoEs are competitive with
the dense Transformer-XL on both the WikiText-103 and enwiki8 datasets at two
different scales, while being much more resource efficient. This demonstrates
that MoEs are relevant not only to extremely large LMs but also to any-scale
resource-efficient LMs. Our code is public.