Vision Transformers benötigen Register.
Vision Transformers Need Registers
September 28, 2023
Autoren: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
cs.AI
Zusammenfassung
Transformer haben sich kürzlich als leistungsstarkes Werkzeug zum Erlernen visueller Repräsentationen erwiesen. In diesem Artikel identifizieren und charakterisieren wir Artefakte in den Feature-Maps von sowohl überwachten als auch selbstüberwachten ViT-Netzwerken. Diese Artefakte entsprechen Tokens mit hoher Norm, die während des Inferenzprozesses hauptsächlich in wenig informativen Hintergrundbereichen von Bildern auftreten und für interne Berechnungen umfunktioniert werden. Wir schlagen eine einfache, aber effektive Lösung vor, die darauf basiert, der Eingabesequenz des Vision Transformers zusätzliche Tokens bereitzustellen, um diese Rolle zu erfüllen. Wir zeigen, dass diese Lösung das Problem sowohl für überwachte als auch selbstüberwachte Modelle vollständig behebt, einen neuen State-of-the-Art für selbstüberwachte visuelle Modelle bei dichten visuellen Vorhersageaufgaben setzt, Objektentdeckungsmethoden mit größeren Modellen ermöglicht und vor allem zu glatteren Feature-Maps und Aufmerksamkeitskarten für die nachgelagerte visuelle Verarbeitung führt.
English
Transformers have recently emerged as a powerful tool for learning visual
representations. In this paper, we identify and characterize artifacts in
feature maps of both supervised and self-supervised ViT networks. The artifacts
correspond to high-norm tokens appearing during inference primarily in
low-informative background areas of images, that are repurposed for internal
computations. We propose a simple yet effective solution based on providing
additional tokens to the input sequence of the Vision Transformer to fill that
role. We show that this solution fixes that problem entirely for both
supervised and self-supervised models, sets a new state of the art for
self-supervised visual models on dense visual prediction tasks, enables object
discovery methods with larger models, and most importantly leads to smoother
feature maps and attention maps for downstream visual processing.