EMOv2: Расширение границ модели видения на 5 миллионов.

Аннотация

Данная работа сосредотачивается на разработке параметрически эффективных и легких моделей для плотных прогнозов, обеспечивая баланс между параметрами, операциями с плавающей запятой и производительностью. Наша цель - установить новую границу легких моделей масштаба 5M для различных последующих задач. Инвертированный блок остатков (IRB) служит инфраструктурой для легких сверточных нейронных сетей, но не было признано аналогов на основе внимания. Наша работа переосмысливает легкую инфраструктуру эффективного IRB и практические компоненты в Трансформере с объединенной перспективы, расширяя сверточные IRB на основе CNN до моделей на основе внимания и абстрагируя один блок Meta Mobile (MMBlock) с одним остаточным элементом для проектирования легких моделей. Следуя аккуратным, но эффективным критериям дизайна, мы выводим современный Улучшенный Инвертированный Мобильный Блок (i2RMB) и улучшаем иерархическую Эффективную Модель (EMOv2) без сложных структур. Учитывая незаметную задержку для мобильных пользователей при загрузке моделей под 4G/5G пропускной способности и обеспечивая производительность модели, мы исследуем верхний предел производительности легких моделей масштаба 5M. Обширные эксперименты на различных задачах распознавания изображений, плотных прогнозов и генерации изображений демонстрируют превосходство нашего EMOv2 над передовыми методами, например, EMOv2-1M/2M/5M достигают 72,3, 75,8 и 79,4 Top-1, что значительно превосходит равнозначные модели на основе CNN/внимания. В то же время, EMOv2-5M с RetinaNet достигает 41,5 mAP для задач обнаружения объектов, что превосходит предыдущий EMO-5M на +2,6. Применяя более надежный рецепт обучения, наш EMOv2-5M в конечном итоге достигает точности Top-1 в 82,9, что поднимает производительность моделей масштаба 5M на новый уровень. Код доступен по ссылке https://github.com/zhangzjn/EMOv2.

English

This work focuses on developing parameter-efficient and lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Our goal is to set up the new frontier of the 5M magnitude lightweight model on various downstream tasks. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterparts have been recognized by attention-based design. Our work rethinks the lightweight infrastructure of efficient IRB and practical components in Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMBlock) for lightweight model design. Following neat but effective design criterion, we deduce a modern Improved Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient MOdel (EMOv2) with no elaborate complex structures. Considering the imperceptible latency for mobile users when downloading models under 4G/5G bandwidth and ensuring model performance, we investigate the performance upper limit of lightweight models with a magnitude of 5M. Extensive experiments on various vision recognition, dense prediction, and image generation tasks demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g., EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the previous EMO-5M by +2.6. When employing the more robust training recipe, our EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the performance of 5M magnitude models to a new level. Code is available at https://github.com/zhangzjn/EMOv2.

EMOv2: Расширение границ модели видения на 5 миллионов.

EMOv2: Pushing 5M Vision Model Frontier

Аннотация

Support