FasterViT: 階層的注意機構を備えた高速視覚トランスフォーマー
FasterViT: Fast Vision Transformers with Hierarchical Attention
June 9, 2023
著者: Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov
cs.AI
要旨
我々は、コンピュータビジョン(CV)アプリケーションにおける高スループットを重視した新しいハイブリッドCNN-ViTニューラルネットワークファミリー、FasterViTを設計しました。FasterViTは、CNNの高速な局所表現学習とViTのグローバルモデリング特性の利点を組み合わせています。新たに導入した階層的アテンション(HAT)アプローチは、二次複雑性を持つグローバル自己アテンションを、計算コストを削減したマルチレベルアテンションに分解します。我々は、効率的なウィンドウベースの自己アテンションを活用します。各ウィンドウは、局所およびグローバル表現学習に参加する専用のキャリアトークンにアクセスできます。高レベルでは、グローバル自己アテンションが低コストで効率的なウィンドウ間通信を可能にします。FasterViTは、精度と画像スループットの関係においてSOTAのパレートフロントを達成しました。我々は、分類、物体検出、セグメンテーションを含む様々なCVタスクにおいてその有効性を広範に検証しました。また、HATが既存ネットワークのプラグアンドプレイモジュールとして使用され、それらを強化できることも示しました。さらに、高解像度画像において競合するモデルよりも大幅に高速かつ正確な性能を実証しました。コードはhttps://github.com/NVlabs/FasterViTで公開されています。
English
We design a new family of hybrid CNN-ViT neural networks, named FasterViT,
with a focus on high image throughput for computer vision (CV) applications.
FasterViT combines the benefits of fast local representation learning in CNNs
and global modeling properties in ViT. Our newly introduced Hierarchical
Attention (HAT) approach decomposes global self-attention with quadratic
complexity into a multi-level attention with reduced computational costs. We
benefit from efficient window-based self-attention. Each window has access to
dedicated carrier tokens that participate in local and global representation
learning. At a high level, global self-attentions enable the efficient
cross-window communication at lower costs. FasterViT achieves a SOTA
Pareto-front in terms of accuracy \vs image throughput. We have extensively
validated its effectiveness on various CV tasks including classification,
object detection and segmentation. We also show that HAT can be used as a
plug-and-play module for existing networks and enhance them. We further
demonstrate significantly faster and more accurate performance than competitive
counterparts for images with high resolution. Code is available at
https://github.com/NVlabs/FasterViT.