EMOv2 : Repousser les limites des modèles de vision 5M
EMOv2: Pushing 5M Vision Model Frontier
December 9, 2024
Auteurs: Jiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao
cs.AI
Résumé
Ce travail se concentre sur le développement de modèles légers et efficaces en termes de paramètres pour des prédictions denses, tout en équilibrant les paramètres, les FLOPs et les performances. Notre objectif est d'établir une nouvelle frontière avec des modèles légers de l'ordre de grandeur de 5M pour diverses tâches ultérieures. Le Bloc Résiduel Inversé (IRB) sert d'infrastructure pour les CNN légers, mais aucun équivalent n'a été reconnu par une conception basée sur l'attention. Notre travail repense l'infrastructure légère de l'IRB efficace et des composants pratiques dans le Transformer d'un point de vue unifié, en étendant l'IRB basé sur CNN aux modèles basés sur l'attention et en abstrayant un Bloc Mobile Méta à un résidu unique (MMBlock) pour la conception de modèles légers. En suivant un critère de conception soigné mais efficace, nous déduisons un Bloc Mobile Résiduel Inversé Amélioré moderne (i2RMB) et améliorons un Modèle Efficace Hiérarchique (EMOv2) sans structures complexes élaborées. En tenant compte de la latence imperceptible pour les utilisateurs mobiles lors du téléchargement de modèles sous bande passante 4G/5G et en garantissant les performances du modèle, nous étudions la limite supérieure des performances des modèles légers d'une magnitude de 5M. Des expériences approfondies sur diverses tâches de reconnaissance visuelle, de prédiction dense et de génération d'images démontrent la supériorité de notre EMOv2 par rapport aux méthodes de pointe, par exemple, EMOv2-1M/2M/5M atteignent 72,3, 75,8 et 79,4 Top-1, dépassant significativement les modèles équivalents basés sur CNN/Attention. En même temps, EMOv2-5M équipé de RetinaNet atteint 41,5 mAP pour les tâches de détection d'objets, surpassant le précédent EMO-5M de +2,6. En utilisant une recette d'entraînement plus robuste, notre EMOv2-5M atteint finalement une précision de 82,9 Top-1, élevant les performances des modèles de l'ordre de grandeur de 5M à un nouveau niveau. Le code est disponible sur https://github.com/zhangzjn/EMOv2.
English
This work focuses on developing parameter-efficient and lightweight models
for dense predictions while trading off parameters, FLOPs, and performance. Our
goal is to set up the new frontier of the 5M magnitude lightweight model on
various downstream tasks. Inverted Residual Block (IRB) serves as the
infrastructure for lightweight CNNs, but no counterparts have been recognized
by attention-based design. Our work rethinks the lightweight infrastructure of
efficient IRB and practical components in Transformer from a unified
perspective, extending CNN-based IRB to attention-based models and abstracting
a one-residual Meta Mobile Block (MMBlock) for lightweight model design.
Following neat but effective design criterion, we deduce a modern Improved
Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient
MOdel (EMOv2) with no elaborate complex structures. Considering the
imperceptible latency for mobile users when downloading models under 4G/5G
bandwidth and ensuring model performance, we investigate the performance upper
limit of lightweight models with a magnitude of 5M. Extensive experiments on
various vision recognition, dense prediction, and image generation tasks
demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g.,
EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order
CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped
RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the
previous EMO-5M by +2.6. When employing the more robust training recipe, our
EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the
performance of 5M magnitude models to a new level. Code is available at
https://github.com/zhangzjn/EMOv2.Summary
AI-Generated Summary