ChatPaper.aiChatPaper

지역성 주의 비전 트랜스포머

Locality-Attending Vision Transformer

March 5, 2026
저자: Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri, Christian Desrosiers, Ismail Ben Ayed, Jose Dolz
cs.AI

초록

비전 트랜스포머는 장거리 종속성을 포착하기 위한 전역 자기 주의 메커니즘을 활용하여 분류 작업에서 놀라운 성공을 입증해왔습니다. 그러나 이러한 동일한 메커니즘은 분할과 같은 작업에 중요한 세밀한 공간적 세부 정보를 흐릴 수 있습니다. 본 연구에서는 표준 이미지 수준 분류 학습 이후 비전 트랜스포머의 분할 성능을 향상시키고자 합니다. 보다 구체적으로, 비전 트랜스포머의 이미지 수준 인식 능력을 유지하면서 분할 작업 성능을 향상시키는 간단하면서도 효과적인 추가 모듈을 제안합니다. 우리의 접근법에서는 인접한 패치에 주의를 편향시키는 학습 가능한 가우시안 커널로 자기 주의를 조절합니다. 또한 패치 표현을 정제하여 패치 위치에서 더 나은 임베딩을 학습하도록 합니다. 이러한 수정은 토큰이 주변 지역에 집중하도록 유도하고 공간 위치에서 의미 있는 표현을 보장하는 동시에 모델이 전역 정보를 통합하는 능력을 여전히 보존합니다. 실험 결과, 학습 방식을 변경하거나 분류 성능을 저하시키지 않으면서 세 가지 벤치마크(예: ViT Tiny 및 Base 기준 ADE20K에서 각각 6%, 4% 이상)에서 상당한 분할 성능 향상을 통해 우리 수정의 효과성을 입증했습니다. 코드는 https://github.com/sinahmr/LocAtViT/에서 확인할 수 있습니다.
English
Vision transformers have demonstrated remarkable success in classification by leveraging global self-attention to capture long-range dependencies. However, this same mechanism can obscure fine-grained spatial details crucial for tasks such as segmentation. In this work, we seek to enhance segmentation performance of vision transformers after standard image-level classification training. More specifically, we present a simple yet effective add-on that improves performance on segmentation tasks while retaining vision transformers' image-level recognition capabilities. In our approach, we modulate the self-attention with a learnable Gaussian kernel that biases the attention toward neighboring patches. We further refine the patch representations to learn better embeddings at patch positions. These modifications encourage tokens to focus on local surroundings and ensure meaningful representations at spatial positions, while still preserving the model's ability to incorporate global information. Experiments demonstrate the effectiveness of our modifications, evidenced by substantial segmentation gains on three benchmarks (e.g., over 6% and 4% on ADE20K for ViT Tiny and Base), without changing the training regime or sacrificing classification performance. The code is available at https://github.com/sinahmr/LocAtViT/.
PDF62March 9, 2026