Vision Transformers benötigen keine trainierten Register.
Vision Transformers Don't Need Trained Registers
June 9, 2025
papers.authors: Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
cs.AI
papers.abstract
Wir untersuchen den Mechanismus, der einem zuvor identifizierten Phänomen in Vision Transformern zugrunde liegt – dem Auftreten von Tokens mit hoher Norm, die zu verrauschten Aufmerksamkeitskarten führen. Wir beobachten, dass in mehreren Modellen (z. B. CLIP, DINOv2) eine spärliche Menge von Neuronen dafür verantwortlich ist, Aktivierungen mit hoher Norm auf Ausreißer-Tokens zu konzentrieren, was zu unregelmäßigen Aufmerksamkeitsmustern führt und die nachgelagerte visuelle Verarbeitung beeinträchtigt. Während die bestehende Lösung zur Entfernung dieser Ausreißer darin besteht, Modelle von Grund auf mit zusätzlichen gelernten Register-Tokens neu zu trainieren, nutzen wir unsere Erkenntnisse, um einen trainingsfreien Ansatz zur Minderung dieser Artefakte zu entwickeln. Indem wir die Aktivierungen mit hoher Norm von unseren entdeckten Register-Neuronen in einen zusätzlichen untrainierten Token verschieben, können wir den Effekt von Register-Tokens in einem Modell nachahmen, das bereits ohne Register trainiert wurde. Wir zeigen, dass unsere Methode sauberere Aufmerksamkeits- und Feature-Karten erzeugt, die Leistung gegenüber Basismodellen in mehreren nachgelagerten visuellen Aufgaben verbessert und Ergebnisse erzielt, die mit Modellen vergleichbar sind, die explizit mit Register-Tokens trainiert wurden. Anschließend erweitern wir Testzeit-Register auf gebrauchsfertige Vision-Language-Modelle, um deren Interpretierbarkeit zu verbessern. Unsere Ergebnisse deuten darauf hin, dass Testzeit-Register effektiv die Rolle von Register-Tokens zur Testzeit übernehmen und somit eine trainingsfreie Lösung für jedes vorgefertigte Modell bieten, das ohne diese veröffentlicht wurde.
English
We investigate the mechanism underlying a previously identified phenomenon in
Vision Transformers -- the emergence of high-norm tokens that lead to noisy
attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a
sparse set of neurons is responsible for concentrating high-norm activations on
outlier tokens, leading to irregular attention patterns and degrading
downstream visual processing. While the existing solution for removing these
outliers involves retraining models from scratch with additional learned
register tokens, we use our findings to create a training-free approach to
mitigate these artifacts. By shifting the high-norm activations from our
discovered register neurons into an additional untrained token, we can mimic
the effect of register tokens on a model already trained without registers. We
demonstrate that our method produces cleaner attention and feature maps,
enhances performance over base models across multiple downstream visual tasks,
and achieves results comparable to models explicitly trained with register
tokens. We then extend test-time registers to off-the-shelf vision-language
models to improve their interpretability. Our results suggest that test-time
registers effectively take on the role of register tokens at test-time,
offering a training-free solution for any pre-trained model released without
them.