Аппроксимация двухслойных прямых сетей для эффективных трансформеров
Approximating Two-Layer Feedforward Networks for Efficient Transformers
October 16, 2023
Авторы: Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber
cs.AI
Аннотация
Как уменьшить требования к вычислительным ресурсам и памяти для нейронных сетей (НС) без ущерба для производительности? Многие недавние работы используют разреженные смеси экспертов (MoEs) для создания ресурсоэффективных крупных языковых моделей (LMs). В данной статье мы представляем несколько новых взглядов на MoEs, предлагая общую структуру, которая объединяет различные методы аппроксимации двухслойных НС (например, прямые блоки трансформеров), включая продукт-ключевые памяти (PKMs). Используя идеи из этой структуры, мы предлагаем методы улучшения как MoEs, так и PKMs. В отличие от предыдущих работ, которые сравнивают MoEs с плотными базовыми моделями в условиях равных вычислительных ресурсов, наше условие оценки — равное количество параметров, что крайне важно для корректной оценки LMs. Мы показываем, что наши MoEs конкурируют с плотной моделью Transformer-XL на наборах данных WikiText-103 и enwiki8 в двух различных масштабах, при этом будучи значительно более ресурсоэффективными. Это демонстрирует, что MoEs актуальны не только для чрезвычайно крупных LMs, но и для ресурсоэффективных LMs любого масштаба. Наш код находится в открытом доступе.
English
How to reduce compute and memory requirements of neural networks (NNs)
without sacrificing performance? Many recent works use sparse Mixtures of
Experts (MoEs) to build resource-efficient large language models (LMs). Here we
introduce several novel perspectives on MoEs, presenting a general framework
that unifies various methods to approximate two-layer NNs (e.g., feedforward
blocks of Transformers), including product-key memories (PKMs). Leveraging
insights from this framework, we propose methods to improve both MoEs and PKMs.
Unlike prior work that compares MoEs with dense baselines under the
compute-equal condition, our evaluation condition is parameter-equal, which is
crucial to properly evaluate LMs. We show that our MoEs are competitive with
the dense Transformer-XL on both the WikiText-103 and enwiki8 datasets at two
different scales, while being much more resource efficient. This demonstrates
that MoEs are relevant not only to extremely large LMs but also to any-scale
resource-efficient LMs. Our code is public.