EMOv2: Vorstoß in die 5M Vision Model Frontier
EMOv2: Pushing 5M Vision Model Frontier
December 9, 2024
Autoren: Jiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao
cs.AI
Zusammenfassung
Diese Arbeit konzentriert sich auf die Entwicklung von parameter-effizienten und leichten Modellen für dichte Vorhersagen unter Berücksichtigung von Parametern, FLOPs und Leistung. Unser Ziel ist es, die neue Grenze des 5M-Magnitude-Leichtgewichtsmodells in verschiedenen nachgelagerten Aufgaben zu setzen. Der Inverted Residual Block (IRB) dient als Grundlage für leichte CNNs, jedoch wurden keine Gegenstücke durch aufmerksamkeitsbasiertes Design anerkannt. Unsere Arbeit überdenkt die leichte Infrastruktur des effizienten IRB und der praktischen Komponenten im Transformer aus einer vereinheitlichten Perspektive, erweitert den CNN-basierten IRB zu aufmerksamkeitsbasierten Modellen und abstrahiert einen Ein-Residual-Meta-Mobile-Block (MMBlock) für das Design von Leichtgewichtsmodellen. Unter Berücksichtigung des unmerklichen Latenz für mobile Benutzer beim Herunterladen von Modellen unter 4G/5G-Bandbreite und der Sicherstellung der Modellleistung untersuchen wir die Leistungsobergrenze von Leichtgewichtsmodellen mit einer Größenordnung von 5M. Umfangreiche Experimente in verschiedenen Bereichen wie Bilderkennung, dichte Vorhersage und Bildgenerierung zeigen die Überlegenheit unseres EMOv2 gegenüber State-of-the-Art-Methoden, z. B. erreichen EMOv2-1M/2M/5M 72,3, 75,8 bzw. 79,4 Top-1, was gleichwertige CNN-/Aufmerksamkeitsmodelle signifikant übertrifft. Gleichzeitig erreicht EMOv2-5M ausgestattet mit RetinaNet 41,5 mAP für Objekterkennungsaufgaben, was den vorherigen EMO-5M um +2,6 übertrifft. Durch die Verwendung eines robusteren Schulungsrezepts erreicht unser EMOv2-5M schließlich eine Top-1-Genauigkeit von 82,9, was die Leistung von 5M-Magnitude-Modellen auf ein neues Niveau hebt. Der Code ist verfügbar unter https://github.com/zhangzjn/EMOv2.
English
This work focuses on developing parameter-efficient and lightweight models
for dense predictions while trading off parameters, FLOPs, and performance. Our
goal is to set up the new frontier of the 5M magnitude lightweight model on
various downstream tasks. Inverted Residual Block (IRB) serves as the
infrastructure for lightweight CNNs, but no counterparts have been recognized
by attention-based design. Our work rethinks the lightweight infrastructure of
efficient IRB and practical components in Transformer from a unified
perspective, extending CNN-based IRB to attention-based models and abstracting
a one-residual Meta Mobile Block (MMBlock) for lightweight model design.
Following neat but effective design criterion, we deduce a modern Improved
Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient
MOdel (EMOv2) with no elaborate complex structures. Considering the
imperceptible latency for mobile users when downloading models under 4G/5G
bandwidth and ensuring model performance, we investigate the performance upper
limit of lightweight models with a magnitude of 5M. Extensive experiments on
various vision recognition, dense prediction, and image generation tasks
demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g.,
EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order
CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped
RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the
previous EMO-5M by +2.6. When employing the more robust training recipe, our
EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the
performance of 5M magnitude models to a new level. Code is available at
https://github.com/zhangzjn/EMOv2.