FasterViT: Schnelle Vision-Transformer mit hierarchischer Aufmerksamkeit
FasterViT: Fast Vision Transformers with Hierarchical Attention
June 9, 2023
Autoren: Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov
cs.AI
Zusammenfassung
Wir entwerfen eine neue Familie hybrider CNN-ViT-Neuronaler Netze, genannt FasterViT, mit einem Fokus auf hohen Bilddurchsatz für Computer Vision (CV)-Anwendungen. FasterViT kombiniert die Vorteile des schnellen lokalen Repräsentationslernens in CNNs mit den globalen Modellierungseigenschaften von ViT. Unser neu eingeführtes Hierarchical Attention (HAT)-Verfahren zerlegt die globale Selbstaufmerksamkeit mit quadratischer Komplexität in eine mehrstufige Aufmerksamkeit mit reduzierten Berechnungskosten. Wir profitieren von einer effizienten fensterbasierten Selbstaufmerksamkeit. Jedes Fenster hat Zugriff auf dedizierte Trägertoken, die an lokalem und globalem Repräsentationslernen teilnehmen. Auf einer höheren Ebene ermöglichen globale Selbstaufmerksamkeiten eine effiziente fensterübergreifende Kommunikation zu geringeren Kosten. FasterViT erreicht eine State-of-the-Art (SOTA) Pareto-Front in Bezug auf Genauigkeit \vs Bilddurchsatz. Wir haben seine Wirksamkeit umfassend in verschiedenen CV-Aufgaben, einschließlich Klassifikation, Objekterkennung und Segmentierung, validiert. Wir zeigen auch, dass HAT als Plug-and-Play-Modul für bestehende Netze verwendet und diese verbessern kann. Darüber hinaus demonstrieren wir eine signifikant schnellere und genauere Leistung im Vergleich zu konkurrierenden Ansätzen für Bilder mit hoher Auflösung. Der Code ist verfügbar unter https://github.com/NVlabs/FasterViT.
English
We design a new family of hybrid CNN-ViT neural networks, named FasterViT,
with a focus on high image throughput for computer vision (CV) applications.
FasterViT combines the benefits of fast local representation learning in CNNs
and global modeling properties in ViT. Our newly introduced Hierarchical
Attention (HAT) approach decomposes global self-attention with quadratic
complexity into a multi-level attention with reduced computational costs. We
benefit from efficient window-based self-attention. Each window has access to
dedicated carrier tokens that participate in local and global representation
learning. At a high level, global self-attentions enable the efficient
cross-window communication at lower costs. FasterViT achieves a SOTA
Pareto-front in terms of accuracy \vs image throughput. We have extensively
validated its effectiveness on various CV tasks including classification,
object detection and segmentation. We also show that HAT can be used as a
plug-and-play module for existing networks and enhance them. We further
demonstrate significantly faster and more accurate performance than competitive
counterparts for images with high resolution. Code is available at
https://github.com/NVlabs/FasterViT.