ChatPaper.aiChatPaper

EMOv2: Het verleggen van de grenzen van 5M Vision Model

EMOv2: Pushing 5M Vision Model Frontier

December 9, 2024
Auteurs: Jiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao
cs.AI

Samenvatting

Dit werk richt zich op het ontwikkelen van parameter-efficiënte en lichtgewicht modellen voor dichte voorspellingen, waarbij parameters, FLOPs en prestaties worden afgewogen. Ons doel is om de nieuwe grens van het lichtgewicht model van 5M magnitude in te stellen voor verschillende taken. Het Inverted Residual Block (IRB) dient als de infrastructuur voor lichtgewicht CNN's, maar er zijn geen tegenhangers erkend door op aandacht gebaseerd ontwerp. Ons werk heroverweegt de lichtgewicht infrastructuur van efficiënte IRB en praktische componenten in Transformer vanuit een verenigd perspectief, waarbij CNN-gebaseerde IRB wordt uitgebreid naar op aandacht gebaseerde modellen en een één-residuale Meta Mobile Block (MMBlock) wordt geabstraheerd voor het ontwerpen van lichtgewicht modellen. Met behulp van een net, maar effectief ontwerpcriterium, leiden we een modern Improved Inverted Residual Mobile Block (i2RMB) af en verbeteren we een hiërarchisch Efficiënt MOdel (EMOv2) zonder ingewikkelde complexe structuren. Met het oog op de onmerkbare latentie voor mobiele gebruikers bij het downloaden van modellen onder 4G/5G bandbreedte en het waarborgen van de modelprestaties, onderzoeken we de prestatiebovengrens van lichtgewicht modellen met een magnitude van 5M. Uitgebreide experimenten op verschillende visieherkenning, dichte voorspellings- en beeldgeneratietaken tonen de superioriteit van onze EMOv2 ten opzichte van state-of-the-art methoden aan, bijvoorbeeld EMOv2-1M/2M/5M behalen respectievelijk 72,3, 75,8 en 79,4 Top-1 die aanzienlijk beter zijn dan gelijkwaardige CNN-/op aandacht gebaseerde modellen. Tegelijkertijd behaalt EMOv2-5M uitgerust met RetinaNet 41,5 mAP voor objectherkenningstaken, wat de vorige EMO-5M met +2,6 overtreft. Bij het toepassen van het robuustere trainingsrecept behaalt onze EMOv2-5M uiteindelijk een nauwkeurigheid van 82,9 Top-1, waarmee de prestaties van 5M magnitude modellen naar een nieuw niveau worden getild. De code is beschikbaar op https://github.com/zhangzjn/EMOv2.
English
This work focuses on developing parameter-efficient and lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Our goal is to set up the new frontier of the 5M magnitude lightweight model on various downstream tasks. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterparts have been recognized by attention-based design. Our work rethinks the lightweight infrastructure of efficient IRB and practical components in Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMBlock) for lightweight model design. Following neat but effective design criterion, we deduce a modern Improved Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient MOdel (EMOv2) with no elaborate complex structures. Considering the imperceptible latency for mobile users when downloading models under 4G/5G bandwidth and ensuring model performance, we investigate the performance upper limit of lightweight models with a magnitude of 5M. Extensive experiments on various vision recognition, dense prediction, and image generation tasks demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g., EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the previous EMO-5M by +2.6. When employing the more robust training recipe, our EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the performance of 5M magnitude models to a new level. Code is available at https://github.com/zhangzjn/EMOv2.
PDF132December 11, 2024