Transformador de Visão com Atenção à Localidade

Resumo

Os transformadores de visão demonstraram sucesso notável em classificação ao aproveitar a auto-atenção global para capturar dependências de longo alcance. No entanto, este mesmo mecanismo pode obscurecer detalhes espaciais de alta granularidade cruciais para tarefas como segmentação. Neste trabalho, buscamos melhorar o desempenho de segmentação de transformadores de visão após o treinamento padrão de classificação a nível de imagem. Mais especificamente, apresentamos um complemento simples, porém eficaz, que melhora o desempenho em tarefas de segmentação, mantendo as capacidades de reconhecimento a nível de imagem dos transformadores de visão. Em nossa abordagem, modulamos a auto-atenção com um kernel Gaussiano treinável que direciona a atenção para os *patches* vizinhos. Ainda refinamos as representações dos *patches* para aprender *embeddings* melhores nas posições dos *patches*. Essas modificações incentivam os *tokens* a focar no entorno local e garantem representações significativas nas posições espaciais, preservando a capacidade do modelo de incorporar informações globais. Experimentos demonstram a eficácia das nossas modificações, evidenciada por ganhos substanciais de segmentação em três *benchmarks* (por exemplo, mais de 6% e 4% no ADE20K para ViT Tiny e Base), sem alterar o regime de treinamento ou sacrificar o desempenho de classificação. O código está disponível em https://github.com/sinahmr/LocAtViT/.

English

Vision transformers have demonstrated remarkable success in classification by leveraging global self-attention to capture long-range dependencies. However, this same mechanism can obscure fine-grained spatial details crucial for tasks such as segmentation. In this work, we seek to enhance segmentation performance of vision transformers after standard image-level classification training. More specifically, we present a simple yet effective add-on that improves performance on segmentation tasks while retaining vision transformers' image-level recognition capabilities. In our approach, we modulate the self-attention with a learnable Gaussian kernel that biases the attention toward neighboring patches. We further refine the patch representations to learn better embeddings at patch positions. These modifications encourage tokens to focus on local surroundings and ensure meaningful representations at spatial positions, while still preserving the model's ability to incorporate global information. Experiments demonstrate the effectiveness of our modifications, evidenced by substantial segmentation gains on three benchmarks (e.g., over 6% and 4% on ADE20K for ViT Tiny and Base), without changing the training regime or sacrificing classification performance. The code is available at https://github.com/sinahmr/LocAtViT/.

Transformador de Visão com Atenção à Localidade

Locality-Attending Vision Transformer

Resumo

Support