ChatPaper.aiChatPaper

iFormer : Intégration de ConvNet et Transformer pour une Application Mobile

iFormer: Integrating ConvNet and Transformer for Mobile Application

January 26, 2025
Auteurs: Chuanyang Zheng
cs.AI

Résumé

Nous présentons une nouvelle famille de réseaux de vision hybrides mobiles, appelée iFormer, axée sur l'optimisation de la latence et de la précision des applications mobiles. iFormer intègre efficacement la capacité de représentation locale rapide de la convolution avec la capacité de modélisation globale efficace de l'auto-attention. Les interactions locales sont dérivées de la transformation d'un réseau convolutionnel standard, c'est-à-dire ConvNeXt, pour concevoir un réseau mobile plus léger. Notre nouvelle attention de modulation mobile supprime les opérations intensives en mémoire dans MHA et utilise un mécanisme de modulation efficace pour renforcer la capacité globale de représentation dynamique. Nous menons des expériences approfondies démontrant que iFormer surpasse les réseaux légers existants sur diverses tâches. Notamment, iFormer atteint une impressionnante précision Top-1 de 80,4\% sur ImageNet-1k avec une latence de seulement 1,10 ms sur un iPhone 13, dépassant le MobileNetV4 récemment proposé dans des contraintes de latence similaires. De plus, notre méthode montre des améliorations significatives dans des tâches ultérieures, notamment la détection d'objets COCO, la segmentation d'instances et la segmentation sémantique ADE20k, tout en maintenant une faible latence sur les appareils mobiles pour des entrées haute résolution dans ces scénarios.
English
We present a new family of mobile hybrid vision networks, called iFormer, with a focus on optimizing latency and accuracy on mobile applications. iFormer effectively integrates the fast local representation capacity of convolution with the efficient global modeling ability of self-attention. The local interactions are derived from transforming a standard convolutional network, i.e., ConvNeXt, to design a more lightweight mobile network. Our newly introduced mobile modulation attention removes memory-intensive operations in MHA and employs an efficient modulation mechanism to boost dynamic global representational capacity. We conduct comprehensive experiments demonstrating that iFormer outperforms existing lightweight networks across various tasks. Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k with a latency of only 1.10 ms on an iPhone 13, surpassing the recently proposed MobileNetV4 under similar latency constraints. Additionally, our method shows significant improvements in downstream tasks, including COCO object detection, instance segmentation, and ADE20k semantic segmentation, while still maintaining low latency on mobile devices for high-resolution inputs in these scenarios.

Summary

AI-Generated Summary

PDF132January 28, 2025