Approssimazione di Reti Feedforward a Due Strati per Trasformatori Efficienti
Approximating Two-Layer Feedforward Networks for Efficient Transformers
October 16, 2023
Autori: Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber
cs.AI
Abstract
Come ridurre i requisiti di calcolo e memoria delle reti neurali (NN) senza comprometterne le prestazioni? Molti lavori recenti utilizzano Sparse Mixtures of Experts (MoEs) per costruire modelli linguistici (LM) di grandi dimensioni efficienti in termini di risorse. In questo articolo introduciamo diverse prospettive innovative sui MoEs, presentando un framework generale che unifica vari metodi per approssimare NN a due strati (ad esempio, i blocchi feedforward dei Transformer), incluse le product-key memories (PKMs). Sfruttando le intuizioni derivanti da questo framework, proponiamo metodi per migliorare sia i MoEs che le PKMs. A differenza dei lavori precedenti che confrontano i MoEs con baseline dense in condizioni di calcolo equivalente, la nostra condizione di valutazione è basata su parametri equivalenti, aspetto cruciale per valutare correttamente i LM. Dimostriamo che i nostri MoEs sono competitivi con il Transformer-XL denso sia sul dataset WikiText-103 che su enwiki8 a due scale diverse, pur essendo molto più efficienti in termini di risorse. Ciò dimostra che i MoEs sono rilevanti non solo per LM estremamente grandi, ma anche per LM efficienti in termini di risorse di qualsiasi scala. Il nostro codice è pubblico.
English
How to reduce compute and memory requirements of neural networks (NNs)
without sacrificing performance? Many recent works use sparse Mixtures of
Experts (MoEs) to build resource-efficient large language models (LMs). Here we
introduce several novel perspectives on MoEs, presenting a general framework
that unifies various methods to approximate two-layer NNs (e.g., feedforward
blocks of Transformers), including product-key memories (PKMs). Leveraging
insights from this framework, we propose methods to improve both MoEs and PKMs.
Unlike prior work that compares MoEs with dense baselines under the
compute-equal condition, our evaluation condition is parameter-equal, which is
crucial to properly evaluate LMs. We show that our MoEs are competitive with
the dense Transformer-XL on both the WikiText-103 and enwiki8 datasets at two
different scales, while being much more resource efficient. This demonstrates
that MoEs are relevant not only to extremely large LMs but also to any-scale
resource-efficient LMs. Our code is public.