iFormer: Integrando ConvNet y Transformer para Aplicaciones Móviles
iFormer: Integrating ConvNet and Transformer for Mobile Application
January 26, 2025
Autores: Chuanyang Zheng
cs.AI
Resumen
Presentamos una nueva familia de redes de visión híbridas móviles, llamada iFormer, con un enfoque en optimizar la latencia y precisión en aplicaciones móviles. iFormer integra de manera efectiva la capacidad de representación local rápida de la convolución con la eficiente capacidad de modelado global de la autoatención. Las interacciones locales se derivan de transformar una red convolucional estándar, es decir, ConvNeXt, para diseñar una red móvil más ligera. Nuestra recién introducida atención de modulación móvil elimina operaciones intensivas en memoria en MHA y emplea un mecanismo de modulación eficiente para potenciar la capacidad representativa global dinámica. Realizamos experimentos exhaustivos que demuestran que iFormer supera a las redes ligeras existentes en diversas tareas. Notablemente, iFormer logra una impresionante precisión Top-1 del 80.4\% en ImageNet-1k con una latencia de solo 1.10 ms en un iPhone 13, superando a MobileNetV4 propuesto recientemente bajo restricciones de latencia similares. Además, nuestro método muestra mejoras significativas en tareas secundarias, incluida la detección de objetos COCO, la segmentación de instancias y la segmentación semántica ADE20k, manteniendo aún una baja latencia en dispositivos móviles para entradas de alta resolución en estos escenarios.
English
We present a new family of mobile hybrid vision networks, called iFormer,
with a focus on optimizing latency and accuracy on mobile applications. iFormer
effectively integrates the fast local representation capacity of convolution
with the efficient global modeling ability of self-attention. The local
interactions are derived from transforming a standard convolutional network,
i.e., ConvNeXt, to design a more lightweight mobile network. Our newly
introduced mobile modulation attention removes memory-intensive operations in
MHA and employs an efficient modulation mechanism to boost dynamic global
representational capacity. We conduct comprehensive experiments demonstrating
that iFormer outperforms existing lightweight networks across various tasks.
Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k
with a latency of only 1.10 ms on an iPhone 13, surpassing the recently
proposed MobileNetV4 under similar latency constraints. Additionally, our
method shows significant improvements in downstream tasks, including COCO
object detection, instance segmentation, and ADE20k semantic segmentation,
while still maintaining low latency on mobile devices for high-resolution
inputs in these scenarios.Summary
AI-Generated Summary