Les Transformers à Vision n'ont Pas Besoin de Registres Entraînés
Vision Transformers Don't Need Trained Registers
June 9, 2025
papers.authors: Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
cs.AI
papers.abstract
Nous étudions le mécanisme sous-jacent à un phénomène précédemment identifié dans les Vision Transformers — l'émergence de tokens à norme élevée qui entraînent des cartes d'attention bruitées. Nous observons que, dans plusieurs modèles (par exemple, CLIP, DINOv2), un ensemble restreint de neurones est responsable de la concentration des activations à norme élevée sur des tokens aberrants, conduisant à des motifs d'attention irréguliers et dégradant le traitement visuel en aval. Bien que la solution existante pour éliminer ces aberrations consiste à réentraîner les modèles à partir de zéro avec des tokens de registre supplémentaires appris, nous utilisons nos découvertes pour créer une approche sans entraînement afin d'atténuer ces artefacts. En déplaçant les activations à norme élevée des neurones de registre que nous avons identifiés vers un token supplémentaire non entraîné, nous pouvons reproduire l'effet des tokens de registre sur un modèle déjà entraîné sans registres. Nous démontrons que notre méthode produit des cartes d'attention et de caractéristiques plus propres, améliore les performances par rapport aux modèles de base sur plusieurs tâches visuelles en aval, et obtient des résultats comparables à ceux des modèles explicitement entraînés avec des tokens de registre. Nous étendons ensuite les registres au moment du test à des modèles vision-langage prêts à l'emploi pour améliorer leur interprétabilité. Nos résultats suggèrent que les registres au moment du test assument efficacement le rôle des tokens de registre lors du test, offrant une solution sans entraînement pour tout modèle pré-entraîné publié sans eux.
English
We investigate the mechanism underlying a previously identified phenomenon in
Vision Transformers -- the emergence of high-norm tokens that lead to noisy
attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a
sparse set of neurons is responsible for concentrating high-norm activations on
outlier tokens, leading to irregular attention patterns and degrading
downstream visual processing. While the existing solution for removing these
outliers involves retraining models from scratch with additional learned
register tokens, we use our findings to create a training-free approach to
mitigate these artifacts. By shifting the high-norm activations from our
discovered register neurons into an additional untrained token, we can mimic
the effect of register tokens on a model already trained without registers. We
demonstrate that our method produces cleaner attention and feature maps,
enhances performance over base models across multiple downstream visual tasks,
and achieves results comparable to models explicitly trained with register
tokens. We then extend test-time registers to off-the-shelf vision-language
models to improve their interpretability. Our results suggest that test-time
registers effectively take on the role of register tokens at test-time,
offering a training-free solution for any pre-trained model released without
them.