ChatPaper.aiChatPaper

Les Transformers pour la Vision ont Besoin de Registres

Vision Transformers Need Registers

September 28, 2023
Auteurs: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
cs.AI

Résumé

Les Transformers sont récemment apparus comme un outil puissant pour l'apprentissage de représentations visuelles. Dans cet article, nous identifions et caractérisons des artefacts dans les cartes de caractéristiques des réseaux ViT supervisés et auto-supervisés. Ces artefacts correspondent à des tokens de norme élevée apparaissant principalement dans les zones d'arrière-plan peu informatives des images lors de l'inférence, et qui sont réutilisés pour des calculs internes. Nous proposons une solution simple mais efficace basée sur l'ajout de tokens supplémentaires à la séquence d'entrée du Vision Transformer pour remplir ce rôle. Nous montrons que cette solution résout entièrement ce problème pour les modèles supervisés et auto-supervisés, établit un nouvel état de l'art pour les modèles visuels auto-supervisés sur les tâches de prédiction visuelle dense, permet aux méthodes de découverte d'objets d'utiliser des modèles plus grands, et surtout conduit à des cartes de caractéristiques et des cartes d'attention plus lisses pour le traitement visuel en aval.
English
Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
PDF809December 15, 2024