EMOv2 : Repousser les limites des modèles de vision 5M

papers.abstract

Ce travail se concentre sur le développement de modèles légers et efficaces en termes de paramètres pour des prédictions denses, tout en équilibrant les paramètres, les FLOPs et les performances. Notre objectif est d'établir une nouvelle frontière avec des modèles légers de l'ordre de grandeur de 5M pour diverses tâches ultérieures. Le Bloc Résiduel Inversé (IRB) sert d'infrastructure pour les CNN légers, mais aucun équivalent n'a été reconnu par une conception basée sur l'attention. Notre travail repense l'infrastructure légère de l'IRB efficace et des composants pratiques dans le Transformer d'un point de vue unifié, en étendant l'IRB basé sur CNN aux modèles basés sur l'attention et en abstrayant un Bloc Mobile Méta à un résidu unique (MMBlock) pour la conception de modèles légers. En suivant un critère de conception soigné mais efficace, nous déduisons un Bloc Mobile Résiduel Inversé Amélioré moderne (i2RMB) et améliorons un Modèle Efficace Hiérarchique (EMOv2) sans structures complexes élaborées. En tenant compte de la latence imperceptible pour les utilisateurs mobiles lors du téléchargement de modèles sous bande passante 4G/5G et en garantissant les performances du modèle, nous étudions la limite supérieure des performances des modèles légers d'une magnitude de 5M. Des expériences approfondies sur diverses tâches de reconnaissance visuelle, de prédiction dense et de génération d'images démontrent la supériorité de notre EMOv2 par rapport aux méthodes de pointe, par exemple, EMOv2-1M/2M/5M atteignent 72,3, 75,8 et 79,4 Top-1, dépassant significativement les modèles équivalents basés sur CNN/Attention. En même temps, EMOv2-5M équipé de RetinaNet atteint 41,5 mAP pour les tâches de détection d'objets, surpassant le précédent EMO-5M de +2,6. En utilisant une recette d'entraînement plus robuste, notre EMOv2-5M atteint finalement une précision de 82,9 Top-1, élevant les performances des modèles de l'ordre de grandeur de 5M à un nouveau niveau. Le code est disponible sur https://github.com/zhangzjn/EMOv2.

English

This work focuses on developing parameter-efficient and lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Our goal is to set up the new frontier of the 5M magnitude lightweight model on various downstream tasks. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterparts have been recognized by attention-based design. Our work rethinks the lightweight infrastructure of efficient IRB and practical components in Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMBlock) for lightweight model design. Following neat but effective design criterion, we deduce a modern Improved Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient MOdel (EMOv2) with no elaborate complex structures. Considering the imperceptible latency for mobile users when downloading models under 4G/5G bandwidth and ensuring model performance, we investigate the performance upper limit of lightweight models with a magnitude of 5M. Extensive experiments on various vision recognition, dense prediction, and image generation tasks demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g., EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the previous EMO-5M by +2.6. When employing the more robust training recipe, our EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the performance of 5M magnitude models to a new level. Code is available at https://github.com/zhangzjn/EMOv2.

EMOv2 : Repousser les limites des modèles de vision 5M

EMOv2: Pushing 5M Vision Model Frontier

papers.abstract

Support