ChatPaper.aiChatPaper

iFormer: Integrando ConvNet e Transformer para Aplicação Móvel

iFormer: Integrating ConvNet and Transformer for Mobile Application

January 26, 2025
Autores: Chuanyang Zheng
cs.AI

Resumo

Apresentamos uma nova família de redes de visão híbridas móveis, chamada iFormer, com foco na otimização da latência e precisão em aplicações móveis. O iFormer integra de forma eficaz a capacidade de representação local rápida da convolução com a habilidade eficiente de modelagem global da autoatenção. As interações locais são derivadas da transformação de uma rede convolucional padrão, ou seja, ConvNeXt, para projetar uma rede móvel mais leve. Nossa atenção de modulação móvel recém-introduzida remove operações intensivas em memória no MHA e emprega um mecanismo de modulação eficiente para aumentar a capacidade global representacional dinâmica. Realizamos experimentos abrangentes demonstrando que o iFormer supera as redes leves existentes em várias tarefas. Notavelmente, o iFormer alcança uma impressionante precisão Top-1 de 80,4\% no ImageNet-1k com uma latência de apenas 1,10 ms em um iPhone 13, superando o MobileNetV4 recentemente proposto sob restrições de latência semelhantes. Além disso, nosso método mostra melhorias significativas em tarefas subsequentes, incluindo detecção de objetos COCO, segmentação de instâncias e segmentação semântica ADE20k, mantendo ainda baixa latência em dispositivos móveis para entradas de alta resolução nesses cenários.
English
We present a new family of mobile hybrid vision networks, called iFormer, with a focus on optimizing latency and accuracy on mobile applications. iFormer effectively integrates the fast local representation capacity of convolution with the efficient global modeling ability of self-attention. The local interactions are derived from transforming a standard convolutional network, i.e., ConvNeXt, to design a more lightweight mobile network. Our newly introduced mobile modulation attention removes memory-intensive operations in MHA and employs an efficient modulation mechanism to boost dynamic global representational capacity. We conduct comprehensive experiments demonstrating that iFormer outperforms existing lightweight networks across various tasks. Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k with a latency of only 1.10 ms on an iPhone 13, surpassing the recently proposed MobileNetV4 under similar latency constraints. Additionally, our method shows significant improvements in downstream tasks, including COCO object detection, instance segmentation, and ADE20k semantic segmentation, while still maintaining low latency on mobile devices for high-resolution inputs in these scenarios.

Summary

AI-Generated Summary

PDF132January 28, 2025