ViTAR: 임의 해상도를 지원하는 비전 트랜스포머ViTAR: Vision Transformer with Any Resolution
본 논문은 Vision Transformers(ViTs)가 직면한 중요한 과제, 즉 다양한 이미지 해상도에서의 확장성 제약을 다룹니다. 일반적으로 ViTs는 훈련 시 사용된 해상도와 다른 해상도를 처리할 때 성능 저하를 경험합니다. 본 연구는 이 문제를 해결하기 위해 두 가지 주요 혁신을 제안합니다. 첫째, 단일 Transformer 블록으로 설계된 동적 해상도 조정 모듈을 제안하여 고효율의 점진적 토큰 통합을 달성합니다. 둘째, Vision Transformer에 퍼지 위치 인코딩을 도입하여 여러 해상도에서 일관된 위치 인식을 제공함으로써 단일 훈련 해상도에 대한 과적합을 방지합니다. 이를 통해 개발된 모델인 ViTAR(Vision Transformer with Any Resolution)은 1120x1120 해상도에서 83.3%의 Top-1 정확도를, 4032x4032 해상도에서 80.4%의 정확도를 달성하며 계산 비용을 줄이는 인상적인 적응력을 보여줍니다. 또한 ViTAR은 인스턴스 및 의미론적 분할과 같은 다운스트림 작업에서도 강력한 성능을 보이며, Masked AutoEncoder와 같은 자기 지도 학습 기술과 쉽게 결합할 수 있습니다. 본 연구는 ViTs의 해상도 확장성을 향상시키는 비용 효율적인 솔루션을 제공함으로써 더 다양하고 효율적인 고해상도 이미지 처리를 위한 길을 열어줍니다.