iFormer: Integrazione di ConvNet e Transformer per Applicazioni Mobili
iFormer: Integrating ConvNet and Transformer for Mobile Application
January 26, 2025
Autori: Chuanyang Zheng
cs.AI
Abstract
Presentiamo una nuova famiglia di reti ibride di visione mobile, chiamate iFormer, con un focus sull'ottimizzazione della latenza e dell'accuratezza nelle applicazioni mobili. iFormer integra efficacemente la rapida capacità di rappresentazione locale della convoluzione con l'efficiente capacità di modellazione globale dell'autorappresentazione. Le interazioni locali derivano dalla trasformazione di una rete convoluzionale standard, ovvero ConvNeXt, per progettare una rete mobile più leggera. La nostra nuova attenzione di modulazione mobile rimuove le operazioni ad alta intensità di memoria in MHA e utilizza un efficiente meccanismo di modulazione per potenziare la capacità dinamica di rappresentazione globale. Conduciamo esperimenti esaustivi che dimostrano che iFormer supera le reti leggere esistenti su varie attività. In particolare, iFormer raggiunge un'impressionante accuratezza Top-1 dell'80,4\% su ImageNet-1k con una latenza di soli 1,10 ms su un iPhone 13, superando il recentemente proposto MobileNetV4 sotto vincoli di latenza simili. Inoltre, il nostro metodo mostra significativi miglioramenti nelle attività derivate, incluse la rilevazione degli oggetti COCO, la segmentazione delle istanze e la segmentazione semantica ADE20k, mantenendo comunque una bassa latenza sui dispositivi mobili per input ad alta risoluzione in questi scenari.
English
We present a new family of mobile hybrid vision networks, called iFormer,
with a focus on optimizing latency and accuracy on mobile applications. iFormer
effectively integrates the fast local representation capacity of convolution
with the efficient global modeling ability of self-attention. The local
interactions are derived from transforming a standard convolutional network,
i.e., ConvNeXt, to design a more lightweight mobile network. Our newly
introduced mobile modulation attention removes memory-intensive operations in
MHA and employs an efficient modulation mechanism to boost dynamic global
representational capacity. We conduct comprehensive experiments demonstrating
that iFormer outperforms existing lightweight networks across various tasks.
Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k
with a latency of only 1.10 ms on an iPhone 13, surpassing the recently
proposed MobileNetV4 under similar latency constraints. Additionally, our
method shows significant improvements in downstream tasks, including COCO
object detection, instance segmentation, and ADE20k semantic segmentation,
while still maintaining low latency on mobile devices for high-resolution
inputs in these scenarios.Summary
AI-Generated Summary