Les Transformers pour la Vision ont Besoin de Registres
Vision Transformers Need Registers
September 28, 2023
Auteurs: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
cs.AI
Résumé
Les Transformers sont récemment apparus comme un outil puissant pour l'apprentissage de représentations visuelles. Dans cet article, nous identifions et caractérisons des artefacts dans les cartes de caractéristiques des réseaux ViT supervisés et auto-supervisés. Ces artefacts correspondent à des tokens de norme élevée apparaissant principalement dans les zones d'arrière-plan peu informatives des images lors de l'inférence, et qui sont réutilisés pour des calculs internes. Nous proposons une solution simple mais efficace basée sur l'ajout de tokens supplémentaires à la séquence d'entrée du Vision Transformer pour remplir ce rôle. Nous montrons que cette solution résout entièrement ce problème pour les modèles supervisés et auto-supervisés, établit un nouvel état de l'art pour les modèles visuels auto-supervisés sur les tâches de prédiction visuelle dense, permet aux méthodes de découverte d'objets d'utiliser des modèles plus grands, et surtout conduit à des cartes de caractéristiques et des cartes d'attention plus lisses pour le traitement visuel en aval.
English
Transformers have recently emerged as a powerful tool for learning visual
representations. In this paper, we identify and characterize artifacts in
feature maps of both supervised and self-supervised ViT networks. The artifacts
correspond to high-norm tokens appearing during inference primarily in
low-informative background areas of images, that are repurposed for internal
computations. We propose a simple yet effective solution based on providing
additional tokens to the input sequence of the Vision Transformer to fill that
role. We show that this solution fixes that problem entirely for both
supervised and self-supervised models, sets a new state of the art for
self-supervised visual models on dense visual prediction tasks, enables object
discovery methods with larger models, and most importantly leads to smoother
feature maps and attention maps for downstream visual processing.