ChatPaper.aiChatPaper

FasterViT: Transformadores de Visión Rápida con Atención Jerárquica

FasterViT: Fast Vision Transformers with Hierarchical Attention

June 9, 2023
Autores: Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov
cs.AI

Resumen

Diseñamos una nueva familia de redes neuronales híbridas CNN-ViT, denominada FasterViT, con un enfoque en el alto rendimiento de procesamiento de imágenes para aplicaciones de visión por computadora (CV). FasterViT combina los beneficios del aprendizaje rápido de representaciones locales en CNNs y las propiedades de modelado global en ViT. Nuestro enfoque recién introducido, Atención Jerárquica (HAT), descompone la autoatención global con complejidad cuadrática en una atención multinivel con costos computacionales reducidos. Nos beneficiamos de la autoatención eficiente basada en ventanas. Cada ventana tiene acceso a tokens portadores dedicados que participan en el aprendizaje de representaciones locales y globales. A un nivel superior, las autoatenciones globales permiten una comunicación eficiente entre ventanas a costos más bajos. FasterViT alcanza un frente de Pareto de vanguardia en términos de precisión frente al rendimiento de procesamiento de imágenes. Hemos validado extensamente su efectividad en diversas tareas de CV, incluyendo clasificación, detección de objetos y segmentación. También mostramos que HAT puede utilizarse como un módulo plug-and-play para redes existentes y mejorarlas. Además, demostramos un rendimiento significativamente más rápido y preciso que el de competidores comparables para imágenes de alta resolución. El código está disponible en https://github.com/NVlabs/FasterViT.
English
We design a new family of hybrid CNN-ViT neural networks, named FasterViT, with a focus on high image throughput for computer vision (CV) applications. FasterViT combines the benefits of fast local representation learning in CNNs and global modeling properties in ViT. Our newly introduced Hierarchical Attention (HAT) approach decomposes global self-attention with quadratic complexity into a multi-level attention with reduced computational costs. We benefit from efficient window-based self-attention. Each window has access to dedicated carrier tokens that participate in local and global representation learning. At a high level, global self-attentions enable the efficient cross-window communication at lower costs. FasterViT achieves a SOTA Pareto-front in terms of accuracy \vs image throughput. We have extensively validated its effectiveness on various CV tasks including classification, object detection and segmentation. We also show that HAT can be used as a plug-and-play module for existing networks and enhance them. We further demonstrate significantly faster and more accurate performance than competitive counterparts for images with high resolution. Code is available at https://github.com/NVlabs/FasterViT.
PDF300December 15, 2024