Mobile V-MoEs: Ridimensionamento dei Vision Transformer tramite Miscele Sparse di Esperti

Abstract

I modelli Sparse Mixture-of-Experts (MoE) hanno recentemente guadagnato popolarità grazie alla loro capacità di disaccoppiare la dimensione del modello dall'efficienza inferenziale, attivando solo un piccolo sottoinsieme dei parametri del modello per ogni token di input. In questo modo, i MoE sparsi hanno permesso una scalabilità senza precedenti, ottenendo enormi successi in domini come l'elaborazione del linguaggio naturale e la visione artificiale. In questo lavoro, esploriamo invece l'uso dei MoE sparsi per ridimensionare i Vision Transformers (ViT), rendendoli più attraenti per applicazioni di visione con risorse limitate. A tal fine, proponiamo un design semplificato e mobile-friendly dei MoE in cui intere immagini, anziché singoli patch, vengono instradati agli esperti. Proponiamo inoltre una procedura di addestramento stabile per i MoE che utilizza informazioni sulle super-classi per guidare il router. Dimostriamo empiricamente che i nostri Mobile Vision MoE sparsi (V-MoE) possono raggiungere un migliore compromesso tra prestazioni ed efficienza rispetto ai corrispondenti ViT densi. Ad esempio, per il modello ViT-Tiny, il nostro Mobile V-MoE supera la sua controparte densa del 3,39% su ImageNet-1k. Per una variante ancora più piccola di ViT con un costo inferenziale di soli 54M FLOP, il nostro MoE ottiene un miglioramento del 4,66%.

English

Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due to their ability to decouple model size from inference efficiency by only activating a small subset of the model parameters for any given input token. As such, sparse MoEs have enabled unprecedented scalability, resulting in tremendous successes across domains such as natural language processing and computer vision. In this work, we instead explore the use of sparse MoEs to scale-down Vision Transformers (ViTs) to make them more attractive for resource-constrained vision applications. To this end, we propose a simplified and mobile-friendly MoE design where entire images rather than individual patches are routed to the experts. We also propose a stable MoE training procedure that uses super-class information to guide the router. We empirically show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off between performance and efficiency than the corresponding dense ViTs. For example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only 54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.

Mobile V-MoEs: Ridimensionamento dei Vision Transformer tramite Miscele Sparse di Esperti

Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts

Abstract

Support