Mobile V-MoEs: Ridimensionamento dei Vision Transformer tramite Miscele Sparse di Esperti
Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts
September 8, 2023
Autori: Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du
cs.AI
Abstract
I modelli Sparse Mixture-of-Experts (MoE) hanno recentemente guadagnato popolarità grazie alla loro capacità di disaccoppiare la dimensione del modello dall'efficienza inferenziale, attivando solo un piccolo sottoinsieme dei parametri del modello per ogni token di input. In questo modo, i MoE sparsi hanno permesso una scalabilità senza precedenti, ottenendo enormi successi in domini come l'elaborazione del linguaggio naturale e la visione artificiale. In questo lavoro, esploriamo invece l'uso dei MoE sparsi per ridimensionare i Vision Transformers (ViT), rendendoli più attraenti per applicazioni di visione con risorse limitate. A tal fine, proponiamo un design semplificato e mobile-friendly dei MoE in cui intere immagini, anziché singoli patch, vengono instradati agli esperti. Proponiamo inoltre una procedura di addestramento stabile per i MoE che utilizza informazioni sulle super-classi per guidare il router. Dimostriamo empiricamente che i nostri Mobile Vision MoE sparsi (V-MoE) possono raggiungere un migliore compromesso tra prestazioni ed efficienza rispetto ai corrispondenti ViT densi. Ad esempio, per il modello ViT-Tiny, il nostro Mobile V-MoE supera la sua controparte densa del 3,39% su ImageNet-1k. Per una variante ancora più piccola di ViT con un costo inferenziale di soli 54M FLOP, il nostro MoE ottiene un miglioramento del 4,66%.
English
Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due
to their ability to decouple model size from inference efficiency by only
activating a small subset of the model parameters for any given input token. As
such, sparse MoEs have enabled unprecedented scalability, resulting in
tremendous successes across domains such as natural language processing and
computer vision. In this work, we instead explore the use of sparse MoEs to
scale-down Vision Transformers (ViTs) to make them more attractive for
resource-constrained vision applications. To this end, we propose a simplified
and mobile-friendly MoE design where entire images rather than individual
patches are routed to the experts. We also propose a stable MoE training
procedure that uses super-class information to guide the router. We empirically
show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off
between performance and efficiency than the corresponding dense ViTs. For
example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense
counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only
54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.