FasterViT: Быстрые Vision Transformers с иерархическим вниманием
FasterViT: Fast Vision Transformers with Hierarchical Attention
June 9, 2023
Авторы: Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov
cs.AI
Аннотация
Мы разработали новое семейство гибридных нейронных сетей CNN-ViT под названием FasterViT, ориентированное на высокую пропускную способность изображений для задач компьютерного зрения (CV). FasterViT объединяет преимущества быстрого локального обучения представлений в CNN и глобальных свойств моделирования в ViT. Наш новый подход, названный Иерархическим Вниманием (HAT), декомпозирует глобальное самовнимание с квадратичной сложностью на многоуровневое внимание с уменьшенными вычислительными затратами. Мы используем эффективное самовнимание на основе окон, где каждое окно имеет доступ к выделенным токенам-носителям, участвующим в локальном и глобальном обучении представлений. На высоком уровне глобальное самовнимание обеспечивает эффективное межоконное взаимодействие с меньшими затратами. FasterViT достигает передового Парето-фронта по соотношению точности и пропускной способности изображений. Мы тщательно проверили его эффективность на различных задачах CV, включая классификацию, обнаружение объектов и сегментацию. Мы также показываем, что HAT может использоваться как модуль plug-and-play для существующих сетей, улучшая их производительность. Кроме того, мы демонстрируем значительно более быстрое и точное выполнение по сравнению с конкурентами для изображений с высоким разрешением. Код доступен по адресу https://github.com/NVlabs/FasterViT.
English
We design a new family of hybrid CNN-ViT neural networks, named FasterViT,
with a focus on high image throughput for computer vision (CV) applications.
FasterViT combines the benefits of fast local representation learning in CNNs
and global modeling properties in ViT. Our newly introduced Hierarchical
Attention (HAT) approach decomposes global self-attention with quadratic
complexity into a multi-level attention with reduced computational costs. We
benefit from efficient window-based self-attention. Each window has access to
dedicated carrier tokens that participate in local and global representation
learning. At a high level, global self-attentions enable the efficient
cross-window communication at lower costs. FasterViT achieves a SOTA
Pareto-front in terms of accuracy \vs image throughput. We have extensively
validated its effectiveness on various CV tasks including classification,
object detection and segmentation. We also show that HAT can be used as a
plug-and-play module for existing networks and enhance them. We further
demonstrate significantly faster and more accurate performance than competitive
counterparts for images with high resolution. Code is available at
https://github.com/NVlabs/FasterViT.