Mobile V-MoEs: Масштабирование Vision Transformers через разреженные смеси экспертов
Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts
September 8, 2023
Авторы: Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du
cs.AI
Аннотация
Разреженные модели смеси экспертов (MoE) в последнее время приобрели популярность благодаря своей способности разделять размер модели и эффективность вывода, активируя лишь небольшое подмножество параметров модели для каждого входного токена. Таким образом, разреженные MoE обеспечили беспрецедентную масштабируемость, что привело к значительным успехам в таких областях, как обработка естественного языка и компьютерное зрение. В данной работе мы исследуем использование разреженных MoE для уменьшения масштаба Vision Transformers (ViT), чтобы сделать их более привлекательными для ресурсоемких приложений в области компьютерного зрения. Для этого мы предлагаем упрощенный и мобильно-ориентированный дизайн MoE, в котором целые изображения, а не отдельные патчи, направляются к экспертам. Мы также предлагаем стабильную процедуру обучения MoE, которая использует информацию о суперклассах для управления маршрутизатором. Эмпирически мы показываем, что наши разреженные мобильные Vision MoE (V-MoE) могут достичь лучшего баланса между производительностью и эффективностью по сравнению с соответствующими плотными ViT. Например, для модели ViT-Tiny наш мобильный V-MoE превосходит свою плотную версию на 3,39% на наборе данных ImageNet-1k. Для еще меньшего варианта ViT с затратами на вывод всего 54 млн FLOPs наш MoE достигает улучшения на 4,66%.
English
Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due
to their ability to decouple model size from inference efficiency by only
activating a small subset of the model parameters for any given input token. As
such, sparse MoEs have enabled unprecedented scalability, resulting in
tremendous successes across domains such as natural language processing and
computer vision. In this work, we instead explore the use of sparse MoEs to
scale-down Vision Transformers (ViTs) to make them more attractive for
resource-constrained vision applications. To this end, we propose a simplified
and mobile-friendly MoE design where entire images rather than individual
patches are routed to the experts. We also propose a stable MoE training
procedure that uses super-class information to guide the router. We empirically
show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off
between performance and efficiency than the corresponding dense ViTs. For
example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense
counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only
54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.