Approximierung zweischichtiger Feedforward-Netzwerke für effiziente Transformer
Approximating Two-Layer Feedforward Networks for Efficient Transformers
October 16, 2023
Autoren: Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber
cs.AI
Zusammenfassung
Wie lassen sich die Rechen- und Speicheranforderungen von neuronalen Netzen (NNs) reduzieren, ohne die Leistung zu beeinträchtigen? Viele aktuelle Arbeiten verwenden spärliche Mixture of Experts (MoEs), um ressourceneffiziente große Sprachmodelle (LMs) zu entwickeln. Hier führen wir mehrere neuartige Perspektiven auf MoEs ein und präsentieren einen allgemeinen Rahmen, der verschiedene Methoden zur Annäherung an zweischichtige NNs (z. B. Feedforward-Blöcke von Transformern) vereint, einschließlich Product-Key Memories (PKMs). Basierend auf den Erkenntnissen aus diesem Rahmen schlagen wir Methoden vor, um sowohl MoEs als auch PKMs zu verbessern. Im Gegensatz zu früheren Arbeiten, die MoEs mit dichten Baselines unter der Bedingung gleicher Rechenleistung vergleichen, ist unsere Bewertungsbedingung parameter-gleich, was entscheidend ist, um LMs korrekt zu bewerten. Wir zeigen, dass unsere MoEs mit dem dichten Transformer-XL auf den Datensätzen WikiText-103 und enwiki8 in zwei verschiedenen Größenordnungen konkurrieren können, während sie deutlich ressourceneffizienter sind. Dies zeigt, dass MoEs nicht nur für extrem große LMs relevant sind, sondern auch für ressourceneffiziente LMs jeder Größe. Unser Code ist öffentlich zugänglich.
English
How to reduce compute and memory requirements of neural networks (NNs)
without sacrificing performance? Many recent works use sparse Mixtures of
Experts (MoEs) to build resource-efficient large language models (LMs). Here we
introduce several novel perspectives on MoEs, presenting a general framework
that unifies various methods to approximate two-layer NNs (e.g., feedforward
blocks of Transformers), including product-key memories (PKMs). Leveraging
insights from this framework, we propose methods to improve both MoEs and PKMs.
Unlike prior work that compares MoEs with dense baselines under the
compute-equal condition, our evaluation condition is parameter-equal, which is
crucial to properly evaluate LMs. We show that our MoEs are competitive with
the dense Transformer-XL on both the WikiText-103 and enwiki8 datasets at two
different scales, while being much more resource efficient. This demonstrates
that MoEs are relevant not only to extremely large LMs but also to any-scale
resource-efficient LMs. Our code is public.