Denoising Vision Transformers
Denoising Vision Transformers
January 5, 2024
Autoren: Jiawei Yang, Katie Z Luo, Jiefeng Li, Kilian Q Weinberger, Yonglong Tian, Yue Wang
cs.AI
Zusammenfassung
Wir befassen uns mit einer subtilen, aber bedeutenden Herausforderung, die Vision Transformern (ViTs) innewohnt: Die Merkmalskarten dieser Modelle weisen gitterartige Artefakte auf, die die Leistung von ViTs in nachgelagerten Aufgaben erheblich beeinträchtigen. Unsere Untersuchungen führen dieses grundlegende Problem auf die Positions-Einbettungen im Eingangsstadium zurück. Um dies zu beheben, schlagen wir ein neuartiges Rauschmodell vor, das universell auf alle ViTs anwendbar ist. Konkret zerlegt das Rauschmodell die Ausgaben von ViTs in drei Komponenten: einen semantischen Term, der frei von Rauschartefakten ist, und zwei artefaktbezogene Terme, die von Pixelpositionen abhängen. Eine solche Zerlegung wird durch die Durchsetzung von konsistenten Merkmalen über verschiedene Ansichten mittels neuronaler Felder auf Basis einzelner Bilder erreicht. Dieser pro-Bild-Optimierungsprozess extrahiert artefaktfreie Merkmale aus den rohen ViT-Ausgaben und liefert saubere Merkmale für Offline-Anwendungen. Um unsere Lösung auch für Online-Funktionalität zu erweitern, führen wir einen lernbaren Entrauscher ein, der artefaktfreie Merkmale direkt aus unverarbeiteten ViT-Ausgaben vorhersagt. Dieser zeigt bemerkenswerte Generalisierungsfähigkeiten für neue Daten, ohne dass eine pro-Bild-Optimierung erforderlich ist. Unser zweistufiger Ansatz, den wir als Denoising Vision Transformers (DVT) bezeichnen, erfordert kein erneutes Training bereits vortrainierter ViTs und ist sofort auf jede Transformer-basierte Architektur anwendbar. Wir evaluieren unsere Methode anhand einer Vielzahl repräsentativer ViTs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Umfangreiche Auswertungen zeigen, dass unser DVT bestehende state-of-the-art Allzweckmodelle in semantischen und geometrischen Aufgaben über mehrere Datensätze hinweg konsistent und signifikant verbessert (z.B. +3,84 mIoU). Wir hoffen, dass unsere Studie eine Neubewertung des ViT-Designs anregen wird, insbesondere in Bezug auf die naive Verwendung von Positions-Einbettungen.
English
We delve into a nuanced but significant challenge inherent to Vision
Transformers (ViTs): feature maps of these models exhibit grid-like artifacts,
which detrimentally hurt the performance of ViTs in downstream tasks. Our
investigations trace this fundamental issue down to the positional embeddings
at the input stage. To address this, we propose a novel noise model, which is
universally applicable to all ViTs. Specifically, the noise model dissects ViT
outputs into three components: a semantics term free from noise artifacts and
two artifact-related terms that are conditioned on pixel locations. Such a
decomposition is achieved by enforcing cross-view feature consistency with
neural fields in a per-image basis. This per-image optimization process
extracts artifact-free features from raw ViT outputs, providing clean features
for offline applications. Expanding the scope of our solution to support online
functionality, we introduce a learnable denoiser to predict artifact-free
features directly from unprocessed ViT outputs, which shows remarkable
generalization capabilities to novel data without the need for per-image
optimization. Our two-stage approach, termed Denoising Vision Transformers
(DVT), does not require re-training existing pre-trained ViTs and is
immediately applicable to any Transformer-based architecture. We evaluate our
method on a variety of representative ViTs (DINO, MAE, DeiT-III, EVA02, CLIP,
DINOv2, DINOv2-reg). Extensive evaluations demonstrate that our DVT
consistently and significantly improves existing state-of-the-art
general-purpose models in semantic and geometric tasks across multiple datasets
(e.g., +3.84 mIoU). We hope our study will encourage a re-evaluation of ViT
design, especially regarding the naive use of positional embeddings.