ChatPaper.aiChatPaper

FasterViT: 계층적 어텐션을 활용한 고속 비전 트랜스포머

FasterViT: Fast Vision Transformers with Hierarchical Attention

June 9, 2023
저자: Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov
cs.AI

초록

우리는 컴퓨터 비전(CV) 애플리케이션을 위한 높은 이미지 처리량에 초점을 맞춘 새로운 하이브리드 CNN-ViT 신경망 패밀리인 FasterViT를 설계했습니다. FasterViT는 CNN의 빠른 지역적 표현 학습과 ViT의 전역적 모델링 특성의 장점을 결합합니다. 우리가 새롭게 도입한 계층적 어텐션(Hierarchical Attention, HAT) 접근법은 2차 복잡도를 가진 전역적 자기 어텐션을 계산 비용이 감소된 다단계 어텐션으로 분해합니다. 우리는 효율적인 윈도우 기반 자기 어텐션의 이점을 활용합니다. 각 윈도우는 지역적 및 전역적 표현 학습에 참여하는 전용 캐리어 토큰에 접근할 수 있습니다. 상위 수준에서, 전역적 자기 어텐션은 더 낮은 비용으로 효율적인 윈도우 간 통신을 가능하게 합니다. FasterViT는 정확도 대비 이미지 처리량 측면에서 SOTA 파레토 프론트를 달성했습니다. 우리는 분류, 객체 탐지 및 세그멘테이션을 포함한 다양한 CV 작업에서 그 효과를 광범위하게 검증했습니다. 또한 HAT가 기존 네트워크에 플러그 앤 플레이 모듈로 사용될 수 있고 이를 향상시킬 수 있음을 보여줍니다. 우리는 고해상도 이미지에 대해 경쟁사 대비 훨씬 빠르고 정확한 성능을 추가로 입증했습니다. 코드는 https://github.com/NVlabs/FasterViT에서 확인할 수 있습니다.
English
We design a new family of hybrid CNN-ViT neural networks, named FasterViT, with a focus on high image throughput for computer vision (CV) applications. FasterViT combines the benefits of fast local representation learning in CNNs and global modeling properties in ViT. Our newly introduced Hierarchical Attention (HAT) approach decomposes global self-attention with quadratic complexity into a multi-level attention with reduced computational costs. We benefit from efficient window-based self-attention. Each window has access to dedicated carrier tokens that participate in local and global representation learning. At a high level, global self-attentions enable the efficient cross-window communication at lower costs. FasterViT achieves a SOTA Pareto-front in terms of accuracy \vs image throughput. We have extensively validated its effectiveness on various CV tasks including classification, object detection and segmentation. We also show that HAT can be used as a plug-and-play module for existing networks and enhance them. We further demonstrate significantly faster and more accurate performance than competitive counterparts for images with high resolution. Code is available at https://github.com/NVlabs/FasterViT.
PDF300December 15, 2024