EMOv2: Avanzando el Límite del Modelo de Visión de 5M
EMOv2: Pushing 5M Vision Model Frontier
December 9, 2024
Autores: Jiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao
cs.AI
Resumen
Este trabajo se enfoca en desarrollar modelos ligeros y eficientes en parámetros para predicciones densas, considerando el equilibrio entre parámetros, FLOPs y rendimiento. Nuestro objetivo es establecer la nueva frontera del modelo ligero de magnitud 5M en diversas tareas posteriores. El Bloque Invertido Residual (IRB) sirve como infraestructura para CNNs ligeros, pero no se han reconocido contrapartes mediante diseño basado en atención. Nuestro trabajo reconsidera la infraestructura ligera del eficiente IRB y componentes prácticos en el Transformer desde una perspectiva unificada, extendiendo el IRB basado en CNN a modelos basados en atención y abstrayendo un Bloque Móvil Meta de una sola residual (MMBlock) para el diseño de modelos ligeros. Siguiendo un criterio de diseño limpio pero efectivo, deducimos un moderno Bloque Móvil Invertido Mejorado (i2RMB) y mejoramos un Modelo Eficiente Jerárquico (EMOv2) sin estructuras complejas elaboradas. Considerando la latencia imperceptible para usuarios móviles al descargar modelos bajo ancho de banda 4G/5G y garantizando el rendimiento del modelo, investigamos el límite superior de rendimiento de modelos ligeros con una magnitud de 5M. Experimentos extensos en diversas tareas de reconocimiento visual, predicción densa y generación de imágenes demuestran la superioridad de nuestro EMOv2 sobre los métodos de vanguardia, por ejemplo, EMOv2-1M/2M/5M logran 72.3, 75.8 y 79.4 Top-1 que superan significativamente a modelos de igual orden basados en CNN/Atención. Al mismo tiempo, EMOv2-5M equipado con RetinaNet logra 41.5 mAP para tareas de detección de objetos que supera al anterior EMO-5M en +2.6. Al emplear una receta de entrenamiento más robusta, nuestro EMOv2-5M finalmente logra una precisión Top-1 del 82.9, elevando el rendimiento de los modelos de magnitud 5M a un nuevo nivel. El código está disponible en https://github.com/zhangzjn/EMOv2.
English
This work focuses on developing parameter-efficient and lightweight models
for dense predictions while trading off parameters, FLOPs, and performance. Our
goal is to set up the new frontier of the 5M magnitude lightweight model on
various downstream tasks. Inverted Residual Block (IRB) serves as the
infrastructure for lightweight CNNs, but no counterparts have been recognized
by attention-based design. Our work rethinks the lightweight infrastructure of
efficient IRB and practical components in Transformer from a unified
perspective, extending CNN-based IRB to attention-based models and abstracting
a one-residual Meta Mobile Block (MMBlock) for lightweight model design.
Following neat but effective design criterion, we deduce a modern Improved
Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient
MOdel (EMOv2) with no elaborate complex structures. Considering the
imperceptible latency for mobile users when downloading models under 4G/5G
bandwidth and ensuring model performance, we investigate the performance upper
limit of lightweight models with a magnitude of 5M. Extensive experiments on
various vision recognition, dense prediction, and image generation tasks
demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g.,
EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order
CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped
RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the
previous EMO-5M by +2.6. When employing the more robust training recipe, our
EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the
performance of 5M magnitude models to a new level. Code is available at
https://github.com/zhangzjn/EMOv2.Summary
AI-Generated Summary