Transformador de Visión con Atención a la Localidad

Resumen

Los transformadores de visión han demostrado un notable éxito en clasificación al aprovechar la auto-atención global para capturar dependencias de largo alcance. Sin embargo, este mismo mecanismo puede oscurecer detalles espaciales de grano fino cruciales para tareas como la segmentación. En este trabajo, buscamos mejorar el rendimiento en segmentación de los transformadores de visión tras un entrenamiento estándar de clasificación a nivel de imagen. Más específicamente, presentamos un complemento simple pero efectivo que mejora el rendimiento en tareas de segmentación mientras mantiene las capacidades de reconocimiento a nivel de imagen de los transformadores de visión. En nuestro enfoque, modulamos la auto-atención con un núcleo gaussiano entrenable que sesga la atención hacia los parches vecinos. Además, refinamos las representaciones de parches para aprender mejores incrustaciones en las posiciones de los parches. Estas modificaciones incentivan a que los tokens se centren en el entorno local y aseguran representaciones significativas en las posiciones espaciales, preservando al mismo tiempo la capacidad del modelo para incorporar información global. Los experimentos demuestran la efectividad de nuestras modificaciones, evidenciada por mejoras sustanciales en segmentación en tres benchmarks (por ejemplo, más del 6% y 4% en ADE20K para ViT Tiny y Base), sin cambiar el régimen de entrenamiento ni sacrificar el rendimiento en clasificación. El código está disponible en https://github.com/sinahmr/LocAtViT/.

English

Vision transformers have demonstrated remarkable success in classification by leveraging global self-attention to capture long-range dependencies. However, this same mechanism can obscure fine-grained spatial details crucial for tasks such as segmentation. In this work, we seek to enhance segmentation performance of vision transformers after standard image-level classification training. More specifically, we present a simple yet effective add-on that improves performance on segmentation tasks while retaining vision transformers' image-level recognition capabilities. In our approach, we modulate the self-attention with a learnable Gaussian kernel that biases the attention toward neighboring patches. We further refine the patch representations to learn better embeddings at patch positions. These modifications encourage tokens to focus on local surroundings and ensure meaningful representations at spatial positions, while still preserving the model's ability to incorporate global information. Experiments demonstrate the effectiveness of our modifications, evidenced by substantial segmentation gains on three benchmarks (e.g., over 6% and 4% on ADE20K for ViT Tiny and Base), without changing the training regime or sacrificing classification performance. The code is available at https://github.com/sinahmr/LocAtViT/.

Transformador de Visión con Atención a la Localidad

Locality-Attending Vision Transformer

Resumen

Support