ChatPaper.aiChatPaper

Transformadores de Visão Precisam de Registros

Vision Transformers Need Registers

September 28, 2023
Autores: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
cs.AI

Resumo

Transformers surgiram recentemente como uma ferramenta poderosa para o aprendizado de representações visuais. Neste artigo, identificamos e caracterizamos artefatos nos mapas de características de redes ViT tanto supervisionadas quanto auto-supervisionadas. Os artefatos correspondem a tokens de alta norma que aparecem durante a inferência principalmente em áreas de fundo de baixa informacionalidade das imagens, sendo reutilizados para cálculos internos. Propomos uma solução simples, porém eficaz, baseada na adição de tokens extras à sequência de entrada do Vision Transformer para desempenhar essa função. Demonstramos que essa solução resolve completamente o problema tanto para modelos supervisionados quanto auto-supervisionados, estabelece um novo estado da arte para modelos visuais auto-supervisionados em tarefas de predição visual densa, permite métodos de descoberta de objetos com modelos maiores e, mais importante, resulta em mapas de características e mapas de atenção mais suaves para o processamento visual subsequente.
English
Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
PDF869December 15, 2024