Vision Transformers benötigen Register.

papers.abstract

Transformer haben sich kürzlich als leistungsstarkes Werkzeug zum Erlernen visueller Repräsentationen erwiesen. In diesem Artikel identifizieren und charakterisieren wir Artefakte in den Feature-Maps von sowohl überwachten als auch selbstüberwachten ViT-Netzwerken. Diese Artefakte entsprechen Tokens mit hoher Norm, die während des Inferenzprozesses hauptsächlich in wenig informativen Hintergrundbereichen von Bildern auftreten und für interne Berechnungen umfunktioniert werden. Wir schlagen eine einfache, aber effektive Lösung vor, die darauf basiert, der Eingabesequenz des Vision Transformers zusätzliche Tokens bereitzustellen, um diese Rolle zu erfüllen. Wir zeigen, dass diese Lösung das Problem sowohl für überwachte als auch selbstüberwachte Modelle vollständig behebt, einen neuen State-of-the-Art für selbstüberwachte visuelle Modelle bei dichten visuellen Vorhersageaufgaben setzt, Objektentdeckungsmethoden mit größeren Modellen ermöglicht und vor allem zu glatteren Feature-Maps und Aufmerksamkeitskarten für die nachgelagerte visuelle Verarbeitung führt.

English

Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.

Vision Transformers benötigen Register.

Vision Transformers Need Registers

papers.abstract

Support