ChatPaper.aiChatPaper

FasterViT : Transformers Visionnaires Rapides avec Attention Hiérarchique

FasterViT: Fast Vision Transformers with Hierarchical Attention

June 9, 2023
Auteurs: Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov
cs.AI

Résumé

Nous concevons une nouvelle famille de réseaux neuronaux hybrides CNN-ViT, nommée FasterViT, axée sur un débit d'images élevé pour les applications de vision par ordinateur (CV). FasterViT combine les avantages de l'apprentissage rapide de représentations locales des CNN et des propriétés de modélisation globale des ViT. Notre nouvelle approche d'Attention Hiérarchique (HAT) décompose l'auto-attention globale à complexité quadratique en une attention multi-niveaux avec des coûts computationnels réduits. Nous tirons parti d'une auto-attention efficace basée sur des fenêtres. Chaque fenêtre a accès à des tokens porteurs dédiés qui participent à l'apprentissage de représentations locales et globales. À un niveau élevé, les auto-attentions globales permettent une communication inter-fenêtres efficace à moindre coût. FasterViT atteint un front de Pareto de pointe en termes de précision par rapport au débit d'images. Nous avons largement validé son efficacité sur diverses tâches de CV, y compris la classification, la détection d'objets et la segmentation. Nous montrons également que HAT peut être utilisé comme module plug-and-play pour les réseaux existants et les améliorer. Nous démontrons en outre des performances significativement plus rapides et plus précises que celles des concurrents pour les images à haute résolution. Le code est disponible à l'adresse https://github.com/NVlabs/FasterViT.
English
We design a new family of hybrid CNN-ViT neural networks, named FasterViT, with a focus on high image throughput for computer vision (CV) applications. FasterViT combines the benefits of fast local representation learning in CNNs and global modeling properties in ViT. Our newly introduced Hierarchical Attention (HAT) approach decomposes global self-attention with quadratic complexity into a multi-level attention with reduced computational costs. We benefit from efficient window-based self-attention. Each window has access to dedicated carrier tokens that participate in local and global representation learning. At a high level, global self-attentions enable the efficient cross-window communication at lower costs. FasterViT achieves a SOTA Pareto-front in terms of accuracy \vs image throughput. We have extensively validated its effectiveness on various CV tasks including classification, object detection and segmentation. We also show that HAT can be used as a plug-and-play module for existing networks and enhance them. We further demonstrate significantly faster and more accurate performance than competitive counterparts for images with high resolution. Code is available at https://github.com/NVlabs/FasterViT.
PDF300December 15, 2024