Débruitage des Vision Transformers
Denoising Vision Transformers
January 5, 2024
Auteurs: Jiawei Yang, Katie Z Luo, Jiefeng Li, Kilian Q Weinberger, Yonglong Tian, Yue Wang
cs.AI
Résumé
Nous explorons un défi nuancé mais significatif inhérent aux Vision Transformers (ViTs) : les cartes de caractéristiques de ces modèles présentent des artefacts en forme de grille, qui nuisent considérablement à la performance des ViTs dans les tâches en aval. Nos investigations retracent ce problème fondamental jusqu'aux embeddings positionnels au stade de l'entrée. Pour y remédier, nous proposons un nouveau modèle de bruit, universellement applicable à tous les ViTs. Plus précisément, le modèle de bruit décompose les sorties des ViTs en trois composantes : un terme sémantique exempt d'artefacts de bruit et deux termes liés aux artefacts, conditionnés par les positions des pixels. Une telle décomposition est réalisée en imposant une cohérence des caractéristiques inter-vues avec des champs neuronaux sur une base par image. Ce processus d'optimisation par image extrait des caractéristiques sans artefacts des sorties brutes des ViTs, fournissant ainsi des caractéristiques propres pour des applications hors ligne. En élargissant la portée de notre solution pour supporter une fonctionnalité en ligne, nous introduisons un débruiteur apprenable pour prédire directement des caractéristiques sans artefacts à partir des sorties non traitées des ViTs, qui montre des capacités de généralisation remarquables sur de nouvelles données sans nécessiter d'optimisation par image. Notre approche en deux étapes, nommée Denoising Vision Transformers (DVT), ne nécessite pas de ré-entraîner les ViTs pré-entraînés existants et est immédiatement applicable à toute architecture basée sur les Transformers. Nous évaluons notre méthode sur une variété de ViTs représentatifs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Des évaluations approfondies démontrent que notre DVT améliore de manière constante et significative les modèles polyvalents de pointe existants dans des tâches sémantiques et géométriques sur plusieurs jeux de données (par exemple, +3,84 mIoU). Nous espérons que notre étude encouragera une réévaluation de la conception des ViTs, en particulier concernant l'utilisation naïve des embeddings positionnels.
English
We delve into a nuanced but significant challenge inherent to Vision
Transformers (ViTs): feature maps of these models exhibit grid-like artifacts,
which detrimentally hurt the performance of ViTs in downstream tasks. Our
investigations trace this fundamental issue down to the positional embeddings
at the input stage. To address this, we propose a novel noise model, which is
universally applicable to all ViTs. Specifically, the noise model dissects ViT
outputs into three components: a semantics term free from noise artifacts and
two artifact-related terms that are conditioned on pixel locations. Such a
decomposition is achieved by enforcing cross-view feature consistency with
neural fields in a per-image basis. This per-image optimization process
extracts artifact-free features from raw ViT outputs, providing clean features
for offline applications. Expanding the scope of our solution to support online
functionality, we introduce a learnable denoiser to predict artifact-free
features directly from unprocessed ViT outputs, which shows remarkable
generalization capabilities to novel data without the need for per-image
optimization. Our two-stage approach, termed Denoising Vision Transformers
(DVT), does not require re-training existing pre-trained ViTs and is
immediately applicable to any Transformer-based architecture. We evaluate our
method on a variety of representative ViTs (DINO, MAE, DeiT-III, EVA02, CLIP,
DINOv2, DINOv2-reg). Extensive evaluations demonstrate that our DVT
consistently and significantly improves existing state-of-the-art
general-purpose models in semantic and geometric tasks across multiple datasets
(e.g., +3.84 mIoU). We hope our study will encourage a re-evaluation of ViT
design, especially regarding the naive use of positional embeddings.