Aproximando Redes Feedforward de Duas Camadas para Transformers Eficientes
Approximating Two-Layer Feedforward Networks for Efficient Transformers
October 16, 2023
Autores: Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber
cs.AI
Resumo
Como reduzir os requisitos de computação e memória das redes neurais (NNs) sem sacrificar o desempenho? Muitos trabalhos recentes utilizam Misturas de Especialistas (MoEs) esparsas para construir modelos de linguagem (LMs) grandes e eficientes em termos de recursos. Aqui, introduzimos várias perspectivas novas sobre MoEs, apresentando um framework geral que unifica diversos métodos para aproximar NNs de duas camadas (por exemplo, blocos feedforward de Transformers), incluindo memórias de chave-produto (PKMs). Aproveitando insights desse framework, propomos métodos para melhorar tanto MoEs quanto PKMs. Diferente de trabalhos anteriores que comparam MoEs com baselines densas sob a condição de computação igual, nossa condição de avaliação é de parâmetros iguais, o que é crucial para avaliar corretamente LMs. Mostramos que nossas MoEs são competitivas com o Transformer-XL denso tanto no conjunto de dados WikiText-103 quanto no enwiki8 em duas escalas diferentes, sendo muito mais eficientes em termos de recursos. Isso demonstra que MoEs são relevantes não apenas para LMs extremamente grandes, mas também para LMs eficientes em recursos em qualquer escala. Nosso código é público.
English
How to reduce compute and memory requirements of neural networks (NNs)
without sacrificing performance? Many recent works use sparse Mixtures of
Experts (MoEs) to build resource-efficient large language models (LMs). Here we
introduce several novel perspectives on MoEs, presenting a general framework
that unifies various methods to approximate two-layer NNs (e.g., feedforward
blocks of Transformers), including product-key memories (PKMs). Leveraging
insights from this framework, we propose methods to improve both MoEs and PKMs.
Unlike prior work that compares MoEs with dense baselines under the
compute-equal condition, our evaluation condition is parameter-equal, which is
crucial to properly evaluate LMs. We show that our MoEs are competitive with
the dense Transformer-XL on both the WikiText-103 and enwiki8 datasets at two
different scales, while being much more resource efficient. This demonstrates
that MoEs are relevant not only to extremely large LMs but also to any-scale
resource-efficient LMs. Our code is public.