BAM! Zo Makkelijk: Eenvoudige en Efficiënte Parameterhergebruik voor Mixture of Experts
BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts
August 15, 2024
Auteurs: Qizhen Zhang, Nikolas Gritsch, Dwaraknath Gnaneshwar, Simon Guo, David Cairuz, Bharat Venkitesh, Jakob Foerster, Phil Blunsom, Sebastian Ruder, Ahmet Ustun, Acyr Locatelli
cs.AI
Samenvatting
Het Mixture of Experts (MoE)-framework is een populaire architectuur geworden voor grote taalmodellen vanwege de superieure prestaties ten opzichte van dichte modellen. Het trainen van MoE's vanaf nul op grote schaal is echter buitengewoon kostbaar. Bestaande methoden verminderen dit door meerdere dichte expertmodellen onafhankelijk voor te trainen en deze te gebruiken om een MoE te initialiseren. Dit gebeurt door de feed-forward netwerken (FFN) van de experts te gebruiken om de experts van de MoE te initialiseren, terwijl andere parameters worden samengevoegd. Deze methode beperkt echter het hergebruik van dichte modelparameters tot alleen de FFN-lagen, waardoor de voordelen bij het "upcyclen" van deze modellen naar MoE's worden beperkt. Wij stellen BAM (Branch-Attend-Mix) voor, een eenvoudige maar effectieve methode die dit tekort aanpakt. BAM maakt optimaal gebruik van gespecialiseerde dichte modellen door niet alleen hun FFN te gebruiken om de MoE-lagen te initialiseren, maar ook de aandachtsparameters van de experts volledig te benutten door ze te initialiseren in een zachte variant van Mixture of Attention (MoA)-lagen. We onderzoeken twee methoden voor het upcyclen van aandachtsparameters: 1) het initialiseren van aparte aandachtsexperts uit dichte modellen, inclusief alle aandachtsparameters voor de beste modelprestaties; en 2) het delen van sleutel- en waardeparameters over alle experts om de inferentie-efficiëntie te verbeteren. Om de efficiëntie verder te verbeteren, passen we een parallelle aandachtstransformerarchitectuur toe op MoE's, waardoor de aandachtsexperts en FFN-experts gelijktijdig kunnen worden berekend. Onze experimenten met zaadmodellen variërend van 590 miljoen tot 2 miljard parameters tonen aan dat BAM de baseline overtreft in zowel perplexiteit als prestaties op downstream taken, binnen dezelfde computationele en databeperkingen.
English
The Mixture of Experts (MoE) framework has become a popular architecture for
large language models due to its superior performance over dense models.
However, training MoEs from scratch in a large-scale regime is prohibitively
expensive. Existing methods mitigate this by pre-training multiple dense expert
models independently and using them to initialize an MoE. This is done by using
experts' feed-forward network (FFN) to initialize the MoE's experts while
merging other parameters. However, this method limits the reuse of dense model
parameters to only the FFN layers, thereby constraining the advantages when
"upcycling" these models into MoEs. We propose BAM (Branch-Attend-Mix), a
simple yet effective method that addresses this shortcoming. BAM makes full use
of specialized dense models by not only using their FFN to initialize the MoE
layers but also leveraging experts' attention parameters fully by initializing
them into a soft-variant of Mixture of Attention (MoA) layers. We explore two
methods for upcycling attention parameters: 1) initializing separate attention
experts from dense models including all attention parameters for the best model
performance; and 2) sharing key and value parameters across all experts to
facilitate for better inference efficiency. To further improve efficiency, we
adopt a parallel attention transformer architecture to MoEs, which allows the
attention experts and FFN experts to be computed concurrently. Our experiments
on seed models ranging from 590 million to 2 billion parameters demonstrate
that BAM surpasses baselines in both perplexity and downstream task
performance, within the same computational and data constraints.