EMOv2: Expandindo a Fronteira do Modelo de Visão de 5M
EMOv2: Pushing 5M Vision Model Frontier
December 9, 2024
Autores: Jiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao
cs.AI
Resumo
Este trabalho concentra-se no desenvolvimento de modelos eficientes em termos de parâmetros e leves para previsões densas, equilibrando parâmetros, FLOPs e desempenho. Nosso objetivo é estabelecer a nova fronteira do modelo leve de magnitude 5M em várias tarefas secundárias. O Bloco Residual Invertido (IRB) serve como infraestrutura para CNNs leves, mas não há contrapartes reconhecidas pelo design baseado em atenção. Nosso trabalho repensa a infraestrutura leve do eficiente IRB e componentes práticos no Transformer a partir de uma perspectiva unificada, estendendo o IRB baseado em CNNs para modelos baseados em atenção e abstraindo um Bloco Móvel Meta de um resíduo (MMBlock) para o design de modelos leves. Seguindo critérios de design simples, porém eficazes, deduzimos um moderno Bloco Móvel de Resíduo Invertido Melhorado (i2RMB) e melhoramos um Modelo Eficiente Hierárquico (EMOv2) sem estruturas complexas elaboradas. Considerando a latência imperceptível para usuários móveis ao baixar modelos sob largura de banda 4G/5G e garantindo o desempenho do modelo, investigamos o limite superior de desempenho de modelos leves com uma magnitude de 5M. Experimentos extensivos em várias tarefas de reconhecimento visual, previsão densa e geração de imagens demonstram a superioridade do nosso EMOv2 em relação aos métodos de ponta, por exemplo, EMOv2-1M/2M/5M alcançam 72,3, 75,8 e 79,4 Top-1 que superam significativamente modelos baseados em CNNs/Atenção de mesma ordem. Ao mesmo tempo, o EMOv2-5M equipado com RetinaNet alcança 41,5 mAP para tarefas de detecção de objetos que superam o EMO-5M anterior em +2,6. Ao empregar a receita de treinamento mais robusta, nosso EMOv2-5M alcança eventualmente uma precisão de 82,9 Top-1, elevando o desempenho de modelos de magnitude 5M para um novo nível. O código está disponível em https://github.com/zhangzjn/EMOv2.
English
This work focuses on developing parameter-efficient and lightweight models
for dense predictions while trading off parameters, FLOPs, and performance. Our
goal is to set up the new frontier of the 5M magnitude lightweight model on
various downstream tasks. Inverted Residual Block (IRB) serves as the
infrastructure for lightweight CNNs, but no counterparts have been recognized
by attention-based design. Our work rethinks the lightweight infrastructure of
efficient IRB and practical components in Transformer from a unified
perspective, extending CNN-based IRB to attention-based models and abstracting
a one-residual Meta Mobile Block (MMBlock) for lightweight model design.
Following neat but effective design criterion, we deduce a modern Improved
Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient
MOdel (EMOv2) with no elaborate complex structures. Considering the
imperceptible latency for mobile users when downloading models under 4G/5G
bandwidth and ensuring model performance, we investigate the performance upper
limit of lightweight models with a magnitude of 5M. Extensive experiments on
various vision recognition, dense prediction, and image generation tasks
demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g.,
EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order
CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped
RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the
previous EMO-5M by +2.6. When employing the more robust training recipe, our
EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the
performance of 5M magnitude models to a new level. Code is available at
https://github.com/zhangzjn/EMOv2.Summary
AI-Generated Summary