Mobile V-MoEs: Reducción de escala de Transformers de visión mediante mezcla dispersa de expertos
Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts
September 8, 2023
Autores: Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du
cs.AI
Resumen
Los modelos de Mezcla de Expertos Escasos (MoEs, por sus siglas en inglés) han ganado reciente popularidad debido a su capacidad para desacoplar el tamaño del modelo de la eficiencia en la inferencia, activando solo un subconjunto pequeño de los parámetros del modelo para cualquier token de entrada. Como resultado, los MoEs escasos han permitido una escalabilidad sin precedentes, logrando éxitos significativos en dominios como el procesamiento del lenguaje natural y la visión por computadora. En este trabajo, en cambio, exploramos el uso de MoEs escasos para reducir el tamaño de los Transformers de Visión (ViTs) y hacerlos más atractivos para aplicaciones de visión con recursos limitados. Para ello, proponemos un diseño simplificado y compatible con dispositivos móviles en el que imágenes completas, en lugar de parches individuales, son enrutadas a los expertos. También proponemos un procedimiento de entrenamiento estable para MoEs que utiliza información de superclases para guiar el enrutador. Demostramos empíricamente que nuestros MoEs Escasos de Visión Móvil (V-MoEs) pueden lograr un mejor equilibrio entre rendimiento y eficiencia que los ViTs densos correspondientes. Por ejemplo, para el modelo ViT-Tiny, nuestro V-MoE Móvil supera a su contraparte densa en un 3.39% en ImageNet-1k. Para una variante aún más pequeña de ViT con un costo de inferencia de solo 54M FLOPs, nuestro MoE logra una mejora del 4.66%.
English
Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due
to their ability to decouple model size from inference efficiency by only
activating a small subset of the model parameters for any given input token. As
such, sparse MoEs have enabled unprecedented scalability, resulting in
tremendous successes across domains such as natural language processing and
computer vision. In this work, we instead explore the use of sparse MoEs to
scale-down Vision Transformers (ViTs) to make them more attractive for
resource-constrained vision applications. To this end, we propose a simplified
and mobile-friendly MoE design where entire images rather than individual
patches are routed to the experts. We also propose a stable MoE training
procedure that uses super-class information to guide the router. We empirically
show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off
between performance and efficiency than the corresponding dense ViTs. For
example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense
counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only
54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.