Drop-Upcycling: Het trainen van een Schrale Mengeling van Experts met Gedeeltelijke Herinitialisatie
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization
February 26, 2025
Auteurs: Taishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki
cs.AI
Samenvatting
De Mixture of Experts (MoE) architectuur vermindert de trainings- en inferentiekosten aanzienlijk in vergelijking met een dicht model van gelijke capaciteit. Upcycling is een benadering die een MoE-model initialiseert en traint met behulp van een voorgeleerd dicht model. Hoewel upcycling leidt tot initiële prestatiewinst, verloopt het trainingsproces langzamer dan wanneer het vanaf nul wordt getraind, wat resulteert in suboptimale prestaties op de lange termijn. Wij stellen Drop-Upcycling voor - een methode die dit probleem effectief aanpakt. Drop-Upcycling combineert twee ogenschijnlijk tegenstrijdige benaderingen: het benutten van de kennis van voorgeleerde dichte modellen terwijl sommige delen van de gewichten statistisch opnieuw worden geïnitialiseerd. Deze benadering bevordert strategisch expertspecialisatie, wat aanzienlijk de efficiëntie van het MoE-model bij kennisverwerving verbetert. Uitgebreide grootschalige experimenten tonen aan dat Drop-Upcycling op de lange termijn aanzienlijk beter presteert dan eerdere methoden voor het construeren van MoE, met name bij training op honderden miljarden tokens of meer. Als gevolg hiervan behaalt ons MoE-model met 5,9 miljard actieve parameters vergelijkbare prestaties als een 13 miljard dicht model in dezelfde modelfamilie, terwijl het ongeveer 1/4 van de trainings-FLOPs vereist. Alle experimentele bronnen, inclusief broncode, trainingsgegevens, modelcontrolepunten en logboeken, zijn openbaar beschikbaar om reproduceerbaarheid en toekomstig onderzoek naar MoE te bevorderen.
English
The Mixture of Experts (MoE) architecture reduces the training and inference
cost significantly compared to a dense model of equivalent capacity. Upcycling
is an approach that initializes and trains an MoE model using a pre-trained
dense model. While upcycling leads to initial performance gains, the training
progresses slower than when trained from scratch, leading to suboptimal
performance in the long term. We propose Drop-Upcycling - a method that
effectively addresses this problem. Drop-Upcycling combines two seemingly
contradictory approaches: utilizing the knowledge of pre-trained dense models
while statistically re-initializing some parts of the weights. This approach
strategically promotes expert specialization, significantly enhancing the MoE
model's efficiency in knowledge acquisition. Extensive large-scale experiments
demonstrate that Drop-Upcycling significantly outperforms previous MoE
construction methods in the long term, specifically when training on hundreds
of billions of tokens or more. As a result, our MoE model with 5.9B active
parameters achieves comparable performance to a 13B dense model in the same
model family, while requiring approximately 1/4 of the training FLOPs. All
experimental resources, including source code, training data, model checkpoints
and logs, are publicly available to promote reproducibility and future research
on MoE.