ChatPaper.aiChatPaper

Mobile V-MoEs: Skalierung von Vision Transformern durch spärliche Mixture-of-Experts

Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts

September 8, 2023
Autoren: Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du
cs.AI

Zusammenfassung

Sparse Mixture-of-Experts-Modelle (MoEs) haben in letzter Zeit an Popularität gewonnen, da sie in der Lage sind, die Modellgröße von der Inferenzeffizienz zu entkoppeln, indem sie für jedes Eingabe-Token nur eine kleine Teilmenge der Modellparameter aktivieren. Dadurch haben sparse MoEs eine beispiellose Skalierbarkeit ermöglicht, was zu enormen Erfolgen in Bereichen wie der natürlichen Sprachverarbeitung und der Computer Vision geführt hat. In dieser Arbeit untersuchen wir stattdessen die Verwendung von sparse MoEs, um Vision Transformers (ViTs) zu verkleinern und sie für ressourcenbeschränkte Vision-Anwendungen attraktiver zu machen. Zu diesem Zweck schlagen wir ein vereinfachtes und mobilfreundliches MoE-Design vor, bei dem ganze Bilder anstelle einzelner Patches an die Experten weitergeleitet werden. Wir schlagen außerdem ein stabiles MoE-Trainingsverfahren vor, das Superklassen-Informationen verwendet, um den Router zu steuern. Wir zeigen empirisch, dass unsere sparse Mobile Vision MoEs (V-MoEs) eine bessere Balance zwischen Leistung und Effizienz erreichen können als die entsprechenden dichten ViTs. Zum Beispiel übertrifft unser Mobile V-MoE für das ViT-Tiny-Modell sein dichtes Gegenstück um 3,39 % auf ImageNet-1k. Für eine noch kleinere ViT-Variante mit nur 54M FLOPs Inferenzkosten erreicht unser MoE eine Verbesserung von 4,66 %.
English
Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due to their ability to decouple model size from inference efficiency by only activating a small subset of the model parameters for any given input token. As such, sparse MoEs have enabled unprecedented scalability, resulting in tremendous successes across domains such as natural language processing and computer vision. In this work, we instead explore the use of sparse MoEs to scale-down Vision Transformers (ViTs) to make them more attractive for resource-constrained vision applications. To this end, we propose a simplified and mobile-friendly MoE design where entire images rather than individual patches are routed to the experts. We also propose a stable MoE training procedure that uses super-class information to guide the router. We empirically show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off between performance and efficiency than the corresponding dense ViTs. For example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only 54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.
PDF151December 15, 2024