Mobile V-MoEs: Schaalverkleining van Vision Transformers via Sparse Mixture-of-Experts
Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts
September 8, 2023
Auteurs: Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du
cs.AI
Samenvatting
Sparse Mixture-of-Experts-modellen (MoEs) hebben recentelijk aan populariteit gewonnen vanwege hun vermogen om modelgrootte te ontkoppelen van inferentie-efficiëntie door slechts een kleine subset van de modelparameters te activeren voor elk gegeven invoertoken. Hierdoor hebben sparse MoEs een ongekende schaalbaarheid mogelijk gemaakt, wat heeft geleid tot enorme successen in domeinen zoals natuurlijke taalverwerking en computervisie. In dit werk onderzoeken we in plaats daarvan het gebruik van sparse MoEs om Vision Transformers (ViTs) te verkleinen, zodat ze aantrekkelijker worden voor visuele toepassingen met beperkte middelen. Hiertoe stellen we een vereenvoudigd en mobielvriendelijk MoE-ontwerp voor, waarbij hele afbeeldingen in plaats van individuele patches naar de experts worden gerouteerd. We introduceren ook een stabiele MoE-trainingsprocedure die superklasse-informatie gebruikt om de router te begeleiden. We tonen empirisch aan dat onze sparse Mobile Vision MoEs (V-MoEs) een betere balans tussen prestaties en efficiëntie kunnen bereiken dan de corresponderende dense ViTs. Voor het ViT-Tiny-model presteert onze Mobile V-MoE bijvoorbeeld 3,39% beter op ImageNet-1k. Voor een nog kleinere ViT-variant met slechts 54M FLOPs inferentiekosten behaalt onze MoE een verbetering van 4,66%.
English
Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due
to their ability to decouple model size from inference efficiency by only
activating a small subset of the model parameters for any given input token. As
such, sparse MoEs have enabled unprecedented scalability, resulting in
tremendous successes across domains such as natural language processing and
computer vision. In this work, we instead explore the use of sparse MoEs to
scale-down Vision Transformers (ViTs) to make them more attractive for
resource-constrained vision applications. To this end, we propose a simplified
and mobile-friendly MoE design where entire images rather than individual
patches are routed to the experts. We also propose a stable MoE training
procedure that uses super-class information to guide the router. We empirically
show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off
between performance and efficiency than the corresponding dense ViTs. For
example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense
counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only
54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.