FasterViT: Vision Transformer Veloci con Attenzione Gerarchica

Abstract

Progettiamo una nuova famiglia di reti neurali ibride CNN-ViT, denominata FasterViT, con un focus sull'elevata velocità di elaborazione delle immagini per applicazioni di computer vision (CV). FasterViT combina i vantaggi dell'apprendimento rapido di rappresentazioni locali nelle CNN e delle proprietà di modellazione globale nelle ViT. Il nostro nuovo approccio di Attenzione Gerarchica (HAT) scompone l'auto-attenzione globale con complessità quadratica in un'attenzione multi-livello con costi computazionali ridotti. Beneficiamo di un'auto-attenzione efficiente basata su finestre. Ogni finestra ha accesso a token dedicati che partecipano all'apprendimento di rappresentazioni locali e globali. A un livello superiore, le auto-attenzioni globali consentono una comunicazione efficiente tra finestre a costi inferiori. FasterViT raggiunge un fronte Pareto all'avanguardia in termini di accuratezza rispetto alla velocità di elaborazione delle immagini. Abbiamo ampiamente validato la sua efficacia su varie attività di CV, tra cui classificazione, rilevamento di oggetti e segmentazione. Mostriamo inoltre che HAT può essere utilizzato come modulo plug-and-play per reti esistenti e migliorarle. Dimostriamo inoltre prestazioni significativamente più veloci e accurate rispetto a controparti competitive per immagini ad alta risoluzione. Il codice è disponibile all'indirizzo https://github.com/NVlabs/FasterViT.

English

We design a new family of hybrid CNN-ViT neural networks, named FasterViT, with a focus on high image throughput for computer vision (CV) applications. FasterViT combines the benefits of fast local representation learning in CNNs and global modeling properties in ViT. Our newly introduced Hierarchical Attention (HAT) approach decomposes global self-attention with quadratic complexity into a multi-level attention with reduced computational costs. We benefit from efficient window-based self-attention. Each window has access to dedicated carrier tokens that participate in local and global representation learning. At a high level, global self-attentions enable the efficient cross-window communication at lower costs. FasterViT achieves a SOTA Pareto-front in terms of accuracy \vs image throughput. We have extensively validated its effectiveness on various CV tasks including classification, object detection and segmentation. We also show that HAT can be used as a plug-and-play module for existing networks and enhance them. We further demonstrate significantly faster and more accurate performance than competitive counterparts for images with high resolution. Code is available at https://github.com/NVlabs/FasterViT.

FasterViT: Vision Transformer Veloci con Attenzione Gerarchica

FasterViT: Fast Vision Transformers with Hierarchical Attention

Abstract

Support