iFormer: Интеграция ConvNet и Transformer для мобильного приложения
iFormer: Integrating ConvNet and Transformer for Mobile Application
January 26, 2025
Авторы: Chuanyang Zheng
cs.AI
Аннотация
Мы представляем новое семейство мобильных гибридных сетей компьютерного зрения, названное iFormer, с акцентом на оптимизацию задержки и точности в мобильных приложениях. iFormer эффективно интегрирует быструю локальную способность представления свертки с эффективной глобальной моделирующей способностью самовнимания. Локальные взаимодействия происходят от преобразования стандартной сверточной сети, т.е. ConvNeXt, для разработки более легкой мобильной сети. Наш вновь введенный мобильный модуляционный механизм внимания устраняет операции, требующие большого объема памяти, в MHA и использует эффективный механизм модуляции для увеличения динамической глобальной представительной способности. Мы проводим комплексные эксперименты, демонстрирующие, что iFormer превосходит существующие легкие сети на различных задачах. Важно отметить, что iFormer достигает впечатляющей точности Top-1 в 80,4\% на ImageNet-1k с задержкой всего лишь 1,10 мс на iPhone 13, превосходя недавно предложенную MobileNetV4 при сходных ограничениях задержки. Кроме того, наш метод показывает значительные улучшения в последующих задачах, включая обнаружение объектов COCO, сегментацию экземпляров и семантическую сегментацию ADE20k, сохраняя при этом низкую задержку на мобильных устройствах для изображений высокого разрешения в этих сценариях.
English
We present a new family of mobile hybrid vision networks, called iFormer,
with a focus on optimizing latency and accuracy on mobile applications. iFormer
effectively integrates the fast local representation capacity of convolution
with the efficient global modeling ability of self-attention. The local
interactions are derived from transforming a standard convolutional network,
i.e., ConvNeXt, to design a more lightweight mobile network. Our newly
introduced mobile modulation attention removes memory-intensive operations in
MHA and employs an efficient modulation mechanism to boost dynamic global
representational capacity. We conduct comprehensive experiments demonstrating
that iFormer outperforms existing lightweight networks across various tasks.
Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k
with a latency of only 1.10 ms on an iPhone 13, surpassing the recently
proposed MobileNetV4 under similar latency constraints. Additionally, our
method shows significant improvements in downstream tasks, including COCO
object detection, instance segmentation, and ADE20k semantic segmentation,
while still maintaining low latency on mobile devices for high-resolution
inputs in these scenarios.Summary
AI-Generated Summary