ChatPaper.aiChatPaper

Vision Transformers hebben geen getrainde registers nodig.

Vision Transformers Don't Need Trained Registers

June 9, 2025
Auteurs: Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
cs.AI

Samenvatting

We onderzoeken het mechanisme achter een eerder geïdentificeerd fenomeen in Vision Transformers -- het ontstaan van tokens met een hoge norm die leiden tot ruisachtige aandachtspatronen. We observeren dat in meerdere modellen (bijv. CLIP, DINOv2) een beperkte set neuronen verantwoordelijk is voor het concentreren van activaties met een hoge norm op uitschietertokens, wat resulteert in onregelmatige aandachtspatronen en een verslechtering van downstream visuele verwerking. Hoewel de bestaande oplossing voor het verwijderen van deze uitschieters het opnieuw trainen van modellen vanaf nul met aanvullende geleerde registertokens omvat, gebruiken we onze bevindingen om een trainingsvrije aanpak te creëren om deze artefacten te verminderen. Door de activaties met een hoge norm van onze ontdekte registerneuronen te verplaatsen naar een extra ongetrainde token, kunnen we het effect van registertokens nabootsen in een model dat al is getraind zonder registers. We demonstreren dat onze methode schonere aandachtspatronen en kenmerkkaarten produceert, de prestaties verbetert ten opzichte van basismodellen over meerdere downstream visuele taken, en resultaten bereikt die vergelijkbaar zijn met modellen die expliciet zijn getraind met registertokens. Vervolgens breiden we testtijdregisters uit naar kant-en-klare vision-language modellen om hun interpreteerbaarheid te verbeteren. Onze resultaten suggereren dat testtijdregisters effectief de rol van registertokens overnemen tijdens de testtijd, wat een trainingsvrije oplossing biedt voor elk vooraf getraind model dat zonder deze tokens is vrijgegeven.
English
We investigate the mechanism underlying a previously identified phenomenon in Vision Transformers -- the emergence of high-norm tokens that lead to noisy attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a sparse set of neurons is responsible for concentrating high-norm activations on outlier tokens, leading to irregular attention patterns and degrading downstream visual processing. While the existing solution for removing these outliers involves retraining models from scratch with additional learned register tokens, we use our findings to create a training-free approach to mitigate these artifacts. By shifting the high-norm activations from our discovered register neurons into an additional untrained token, we can mimic the effect of register tokens on a model already trained without registers. We demonstrate that our method produces cleaner attention and feature maps, enhances performance over base models across multiple downstream visual tasks, and achieves results comparable to models explicitly trained with register tokens. We then extend test-time registers to off-the-shelf vision-language models to improve their interpretability. Our results suggest that test-time registers effectively take on the role of register tokens at test-time, offering a training-free solution for any pre-trained model released without them.
PDF222January 15, 2026