Mobile V-MoEs: Reduzindo a Escala de Vision Transformers por meio de Mistura Especializada de Especialistas
Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts
September 8, 2023
Autores: Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du
cs.AI
Resumo
Modelos de Mistura de Especialistas Esparsos (MoEs, do inglês Sparse Mixture-of-Experts) têm ganhado popularidade recentemente devido à sua capacidade de desacoplar o tamanho do modelo da eficiência de inferência, ativando apenas um pequeno subconjunto dos parâmetros do modelo para qualquer token de entrada. Dessa forma, os MoEs esparsos permitiram uma escalabilidade sem precedentes, resultando em sucessos impressionantes em domínios como processamento de linguagem natural e visão computacional. Neste trabalho, exploramos o uso de MoEs esparsos para reduzir a escala de Transformers de Visão (ViTs, do inglês Vision Transformers), tornando-os mais atraentes para aplicações de visão com recursos limitados. Para isso, propomos um design simplificado e adequado para dispositivos móveis, no qual imagens inteiras, em vez de patches individuais, são direcionadas aos especialistas. Também propomos um procedimento de treinamento estável para MoEs que utiliza informações de superclasses para guiar o roteador. Empiricamente, demonstramos que nossos MoEs de Visão Móvel Esparsos (V-MoEs) podem alcançar um melhor equilíbrio entre desempenho e eficiência em comparação com os ViTs densos correspondentes. Por exemplo, para o modelo ViT-Tiny, nosso V-MoE Móvel supera sua contraparte densa em 3,39% no ImageNet-1k. Para uma variante ainda menor de ViT com custo de inferência de apenas 54M FLOPs, nosso MoE alcança uma melhoria de 4,66%.
English
Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due
to their ability to decouple model size from inference efficiency by only
activating a small subset of the model parameters for any given input token. As
such, sparse MoEs have enabled unprecedented scalability, resulting in
tremendous successes across domains such as natural language processing and
computer vision. In this work, we instead explore the use of sparse MoEs to
scale-down Vision Transformers (ViTs) to make them more attractive for
resource-constrained vision applications. To this end, we propose a simplified
and mobile-friendly MoE design where entire images rather than individual
patches are routed to the experts. We also propose a stable MoE training
procedure that uses super-class information to guide the router. We empirically
show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off
between performance and efficiency than the corresponding dense ViTs. For
example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense
counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only
54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.