Aproximación de Redes Neuronales Feedforward de Dos Capas para Transformers Eficientes
Approximating Two-Layer Feedforward Networks for Efficient Transformers
October 16, 2023
Autores: Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber
cs.AI
Resumen
¿Cómo reducir los requisitos de cómputo y memoria de las redes neuronales (NNs) sin sacrificar su rendimiento? Muchos trabajos recientes utilizan Mezclas de Expertos (MoEs) dispersas para construir modelos de lenguaje (LMs) grandes y eficientes en recursos. Aquí presentamos varias perspectivas novedosas sobre los MoEs, introduciendo un marco general que unifica diversos métodos para aproximar NNs de dos capas (por ejemplo, bloques de avance de los Transformers), incluyendo memorias de claves de producto (PKMs). Aprovechando las ideas de este marco, proponemos métodos para mejorar tanto los MoEs como las PKMs. A diferencia de trabajos previos que comparan los MoEs con líneas base densas bajo la condición de cómputo igual, nuestra condición de evaluación es de parámetros iguales, lo cual es crucial para evaluar adecuadamente los LMs. Demostramos que nuestros MoEs son competitivos con el Transformer-XL denso en los conjuntos de datos WikiText-103 y enwiki8 a dos escalas diferentes, siendo mucho más eficientes en recursos. Esto demuestra que los MoEs son relevantes no solo para LMs extremadamente grandes, sino también para LMs eficientes en recursos de cualquier escala. Nuestro código es público.
English
How to reduce compute and memory requirements of neural networks (NNs)
without sacrificing performance? Many recent works use sparse Mixtures of
Experts (MoEs) to build resource-efficient large language models (LMs). Here we
introduce several novel perspectives on MoEs, presenting a general framework
that unifies various methods to approximate two-layer NNs (e.g., feedforward
blocks of Transformers), including product-key memories (PKMs). Leveraging
insights from this framework, we propose methods to improve both MoEs and PKMs.
Unlike prior work that compares MoEs with dense baselines under the
compute-equal condition, our evaluation condition is parameter-equal, which is
crucial to properly evaluate LMs. We show that our MoEs are competitive with
the dense Transformer-XL on both the WikiText-103 and enwiki8 datasets at two
different scales, while being much more resource efficient. This demonstrates
that MoEs are relevant not only to extremely large LMs but also to any-scale
resource-efficient LMs. Our code is public.