Mobile V-MoEs : Réduction des Transformers Visionnaires grâce à des Mélanges d'Experts Épars
Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts
September 8, 2023
Auteurs: Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du
cs.AI
Résumé
Les modèles Sparse Mixture-of-Experts (MoEs) ont récemment gagné en popularité grâce à leur capacité à découpler la taille du modèle de l'efficacité de l'inférence, en n'activant qu'un petit sous-ensemble des paramètres du modèle pour chaque token d'entrée. Ainsi, les MoEs parcimonieux ont permis une scalabilité sans précédent, conduisant à des succès remarquables dans des domaines tels que le traitement du langage naturel et la vision par ordinateur. Dans ce travail, nous explorons plutôt l'utilisation des MoEs parcimonieux pour réduire la taille des Vision Transformers (ViTs), les rendant ainsi plus attractifs pour les applications de vision aux ressources limitées. À cette fin, nous proposons une conception simplifiée et adaptée aux mobiles où des images entières, plutôt que des patches individuels, sont acheminées vers les experts. Nous proposons également une procédure d'entraînement stable pour les MoEs qui utilise des informations de super-classes pour guider le routeur. Nous démontrons empiriquement que nos MoEs parcimonieux pour la vision mobile (V-MoEs) peuvent atteindre un meilleur compromis entre performance et efficacité que les ViTs denses correspondants. Par exemple, pour le modèle ViT-Tiny, notre V-MoE mobile surpasse son homologue dense de 3,39 % sur ImageNet-1k. Pour une variante encore plus petite de ViT avec un coût d'inférence de seulement 54M FLOPs, notre MoE réalise une amélioration de 4,66 %.
English
Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due
to their ability to decouple model size from inference efficiency by only
activating a small subset of the model parameters for any given input token. As
such, sparse MoEs have enabled unprecedented scalability, resulting in
tremendous successes across domains such as natural language processing and
computer vision. In this work, we instead explore the use of sparse MoEs to
scale-down Vision Transformers (ViTs) to make them more attractive for
resource-constrained vision applications. To this end, we propose a simplified
and mobile-friendly MoE design where entire images rather than individual
patches are routed to the experts. We also propose a stable MoE training
procedure that uses super-class information to guide the router. We empirically
show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off
between performance and efficiency than the corresponding dense ViTs. For
example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense
counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only
54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.