Locality-Attenderende Vision Transformer

Samenvatting

Vision transformers hebben opmerkelijke successen geboekt bij classificatie door gebruik te maken van globale zelf-attentie om afhankelijkheden over lange afstand vast te leggen. Ditzelfde mechanisme kan echter de fijnmazige ruimtelijke details verhullen die cruciaal zijn voor taken zoals segmentatie. In dit werk streven we ernaar de segmentatieprestaties van vision transformers te verbeteren na standaard training op beeldniveau voor classificatie. Concreet presenteren we een eenvoudige maar effectieve toevoeging die de prestaties bij segmentatietaken verbetert, terwijl de herkenningscapaciteiten op beeldniveau van vision transformers behouden blijven. In onze aanpak moduleren we de zelf-attentie met een leerbare Gaussiaanse kernel die de aandacht richt op naburige patches. We verfijnen verder de patch-representaties om betere embeddings op patchposities te leren. Deze aanpassingen moedigen tokens aan zich te concentreren op de lokale omgeving en zorgen voor betekenisvolle representaties op ruimtelijke posities, waarbij het vermogen van het model om globale informatie te integreren behouden blijft. Experimenten tonen de effectiviteit van onze aanpassingen aan, bewezen door aanzienlijke segmentatiewinst op drie benchmarks (bijvoorbeeld meer dan 6% en 4% op ADE20K voor ViT Tiny en Base), zonder de trainingsprocedure aan te passen of classificatieprestaties op te offeren. De code is beschikbaar op https://github.com/sinahmr/LocAtViT/.

English

Vision transformers have demonstrated remarkable success in classification by leveraging global self-attention to capture long-range dependencies. However, this same mechanism can obscure fine-grained spatial details crucial for tasks such as segmentation. In this work, we seek to enhance segmentation performance of vision transformers after standard image-level classification training. More specifically, we present a simple yet effective add-on that improves performance on segmentation tasks while retaining vision transformers' image-level recognition capabilities. In our approach, we modulate the self-attention with a learnable Gaussian kernel that biases the attention toward neighboring patches. We further refine the patch representations to learn better embeddings at patch positions. These modifications encourage tokens to focus on local surroundings and ensure meaningful representations at spatial positions, while still preserving the model's ability to incorporate global information. Experiments demonstrate the effectiveness of our modifications, evidenced by substantial segmentation gains on three benchmarks (e.g., over 6% and 4% on ADE20K for ViT Tiny and Base), without changing the training regime or sacrificing classification performance. The code is available at https://github.com/sinahmr/LocAtViT/.

Locality-Attenderende Vision Transformer

Locality-Attending Vision Transformer

Samenvatting

Support