Denoising Vision Transformers

papers.abstract

Wir befassen uns mit einer subtilen, aber bedeutenden Herausforderung, die Vision Transformern (ViTs) innewohnt: Die Merkmalskarten dieser Modelle weisen gitterartige Artefakte auf, die die Leistung von ViTs in nachgelagerten Aufgaben erheblich beeinträchtigen. Unsere Untersuchungen führen dieses grundlegende Problem auf die Positions-Einbettungen im Eingangsstadium zurück. Um dies zu beheben, schlagen wir ein neuartiges Rauschmodell vor, das universell auf alle ViTs anwendbar ist. Konkret zerlegt das Rauschmodell die Ausgaben von ViTs in drei Komponenten: einen semantischen Term, der frei von Rauschartefakten ist, und zwei artefaktbezogene Terme, die von Pixelpositionen abhängen. Eine solche Zerlegung wird durch die Durchsetzung von konsistenten Merkmalen über verschiedene Ansichten mittels neuronaler Felder auf Basis einzelner Bilder erreicht. Dieser pro-Bild-Optimierungsprozess extrahiert artefaktfreie Merkmale aus den rohen ViT-Ausgaben und liefert saubere Merkmale für Offline-Anwendungen. Um unsere Lösung auch für Online-Funktionalität zu erweitern, führen wir einen lernbaren Entrauscher ein, der artefaktfreie Merkmale direkt aus unverarbeiteten ViT-Ausgaben vorhersagt. Dieser zeigt bemerkenswerte Generalisierungsfähigkeiten für neue Daten, ohne dass eine pro-Bild-Optimierung erforderlich ist. Unser zweistufiger Ansatz, den wir als Denoising Vision Transformers (DVT) bezeichnen, erfordert kein erneutes Training bereits vortrainierter ViTs und ist sofort auf jede Transformer-basierte Architektur anwendbar. Wir evaluieren unsere Methode anhand einer Vielzahl repräsentativer ViTs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Umfangreiche Auswertungen zeigen, dass unser DVT bestehende state-of-the-art Allzweckmodelle in semantischen und geometrischen Aufgaben über mehrere Datensätze hinweg konsistent und signifikant verbessert (z.B. +3,84 mIoU). Wir hoffen, dass unsere Studie eine Neubewertung des ViT-Designs anregen wird, insbesondere in Bezug auf die naive Verwendung von Positions-Einbettungen.

English

We delve into a nuanced but significant challenge inherent to Vision Transformers (ViTs): feature maps of these models exhibit grid-like artifacts, which detrimentally hurt the performance of ViTs in downstream tasks. Our investigations trace this fundamental issue down to the positional embeddings at the input stage. To address this, we propose a novel noise model, which is universally applicable to all ViTs. Specifically, the noise model dissects ViT outputs into three components: a semantics term free from noise artifacts and two artifact-related terms that are conditioned on pixel locations. Such a decomposition is achieved by enforcing cross-view feature consistency with neural fields in a per-image basis. This per-image optimization process extracts artifact-free features from raw ViT outputs, providing clean features for offline applications. Expanding the scope of our solution to support online functionality, we introduce a learnable denoiser to predict artifact-free features directly from unprocessed ViT outputs, which shows remarkable generalization capabilities to novel data without the need for per-image optimization. Our two-stage approach, termed Denoising Vision Transformers (DVT), does not require re-training existing pre-trained ViTs and is immediately applicable to any Transformer-based architecture. We evaluate our method on a variety of representative ViTs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Extensive evaluations demonstrate that our DVT consistently and significantly improves existing state-of-the-art general-purpose models in semantic and geometric tasks across multiple datasets (e.g., +3.84 mIoU). We hope our study will encourage a re-evaluation of ViT design, especially regarding the naive use of positional embeddings.