ChatPaper.aiChatPaper

ViTAR: 임의 해상도를 지원하는 비전 트랜스포머

ViTAR: Vision Transformer with Any Resolution

March 27, 2024
저자: Qihang Fan, Quanzeng You, Xiaotian Han, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI

초록

본 논문은 Vision Transformers(ViTs)가 직면한 중요한 과제, 즉 다양한 이미지 해상도에서의 확장성 제약을 다룹니다. 일반적으로 ViTs는 훈련 시 사용된 해상도와 다른 해상도를 처리할 때 성능 저하를 경험합니다. 본 연구는 이 문제를 해결하기 위해 두 가지 주요 혁신을 제안합니다. 첫째, 단일 Transformer 블록으로 설계된 동적 해상도 조정 모듈을 제안하여 고효율의 점진적 토큰 통합을 달성합니다. 둘째, Vision Transformer에 퍼지 위치 인코딩을 도입하여 여러 해상도에서 일관된 위치 인식을 제공함으로써 단일 훈련 해상도에 대한 과적합을 방지합니다. 이를 통해 개발된 모델인 ViTAR(Vision Transformer with Any Resolution)은 1120x1120 해상도에서 83.3%의 Top-1 정확도를, 4032x4032 해상도에서 80.4%의 정확도를 달성하며 계산 비용을 줄이는 인상적인 적응력을 보여줍니다. 또한 ViTAR은 인스턴스 및 의미론적 분할과 같은 다운스트림 작업에서도 강력한 성능을 보이며, Masked AutoEncoder와 같은 자기 지도 학습 기술과 쉽게 결합할 수 있습니다. 본 연구는 ViTs의 해상도 확장성을 향상시키는 비용 효율적인 솔루션을 제공함으로써 더 다양하고 효율적인 고해상도 이미지 처리를 위한 길을 열어줍니다.
English
his paper tackles a significant challenge faced by Vision Transformers (ViTs): their constrained scalability across different image resolutions. Typically, ViTs experience a performance decline when processing resolutions different from those seen during training. Our work introduces two key innovations to address this issue. Firstly, we propose a novel module for dynamic resolution adjustment, designed with a single Transformer block, specifically to achieve highly efficient incremental token integration. Secondly, we introduce fuzzy positional encoding in the Vision Transformer to provide consistent positional awareness across multiple resolutions, thereby preventing overfitting to any single training resolution. Our resulting model, ViTAR (Vision Transformer with Any Resolution), demonstrates impressive adaptability, achieving 83.3\% top-1 accuracy at a 1120x1120 resolution and 80.4\% accuracy at a 4032x4032 resolution, all while reducing computational costs. ViTAR also shows strong performance in downstream tasks such as instance and semantic segmentation and can easily combined with self-supervised learning techniques like Masked AutoEncoder. Our work provides a cost-effective solution for enhancing the resolution scalability of ViTs, paving the way for more versatile and efficient high-resolution image processing.

Summary

AI-Generated Summary

PDF562December 15, 2024