FasterViT: Transformadores de Visión Rápida con Atención Jerárquica
FasterViT: Fast Vision Transformers with Hierarchical Attention
June 9, 2023
Autores: Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov
cs.AI
Resumen
Diseñamos una nueva familia de redes neuronales híbridas CNN-ViT, denominada FasterViT, con un enfoque en el alto rendimiento de procesamiento de imágenes para aplicaciones de visión por computadora (CV). FasterViT combina los beneficios del aprendizaje rápido de representaciones locales en CNNs y las propiedades de modelado global en ViT. Nuestro enfoque recién introducido, Atención Jerárquica (HAT), descompone la autoatención global con complejidad cuadrática en una atención multinivel con costos computacionales reducidos. Nos beneficiamos de la autoatención eficiente basada en ventanas. Cada ventana tiene acceso a tokens portadores dedicados que participan en el aprendizaje de representaciones locales y globales. A un nivel superior, las autoatenciones globales permiten una comunicación eficiente entre ventanas a costos más bajos. FasterViT alcanza un frente de Pareto de vanguardia en términos de precisión frente al rendimiento de procesamiento de imágenes. Hemos validado extensamente su efectividad en diversas tareas de CV, incluyendo clasificación, detección de objetos y segmentación. También mostramos que HAT puede utilizarse como un módulo plug-and-play para redes existentes y mejorarlas. Además, demostramos un rendimiento significativamente más rápido y preciso que el de competidores comparables para imágenes de alta resolución. El código está disponible en https://github.com/NVlabs/FasterViT.
English
We design a new family of hybrid CNN-ViT neural networks, named FasterViT,
with a focus on high image throughput for computer vision (CV) applications.
FasterViT combines the benefits of fast local representation learning in CNNs
and global modeling properties in ViT. Our newly introduced Hierarchical
Attention (HAT) approach decomposes global self-attention with quadratic
complexity into a multi-level attention with reduced computational costs. We
benefit from efficient window-based self-attention. Each window has access to
dedicated carrier tokens that participate in local and global representation
learning. At a high level, global self-attentions enable the efficient
cross-window communication at lower costs. FasterViT achieves a SOTA
Pareto-front in terms of accuracy \vs image throughput. We have extensively
validated its effectiveness on various CV tasks including classification,
object detection and segmentation. We also show that HAT can be used as a
plug-and-play module for existing networks and enhance them. We further
demonstrate significantly faster and more accurate performance than competitive
counterparts for images with high resolution. Code is available at
https://github.com/NVlabs/FasterViT.