Transformadores de Visão Não Precisam de Registros Treinados
Vision Transformers Don't Need Trained Registers
June 9, 2025
Autores: Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
cs.AI
Resumo
Investigamos o mecanismo subjacente a um fenômeno previamente identificado em Vision Transformers — o surgimento de tokens com norma elevada que resultam em mapas de atenção ruidosos. Observamos que, em vários modelos (por exemplo, CLIP, DINOv2), um conjunto esparso de neurônios é responsável por concentrar ativações de alta norma em tokens outliers, levando a padrões de atenção irregulares e degradando o processamento visual subsequente. Embora a solução existente para remover esses outliers envolva retreinar modelos do zero com tokens de registro aprendidos adicionalmente, utilizamos nossas descobertas para criar uma abordagem livre de treinamento que mitiga esses artefatos. Ao deslocar as ativações de alta norma dos neurônios de registro descobertos para um token adicional não treinado, podemos imitar o efeito dos tokens de registro em um modelo já treinado sem eles. Demonstramos que nosso método produz mapas de atenção e de características mais limpos, melhora o desempenho em relação aos modelos base em várias tarefas visuais subsequentes e alcança resultados comparáveis a modelos explicitamente treinados com tokens de registro. Em seguida, estendemos os registros em tempo de teste para modelos visão-linguagem prontos para uso, a fim de melhorar sua interpretabilidade. Nossos resultados sugerem que os registros em tempo de teste efetivamente assumem o papel dos tokens de registro durante o teste, oferecendo uma solução livre de treinamento para qualquer modelo pré-treinado lançado sem eles.
English
We investigate the mechanism underlying a previously identified phenomenon in
Vision Transformers -- the emergence of high-norm tokens that lead to noisy
attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a
sparse set of neurons is responsible for concentrating high-norm activations on
outlier tokens, leading to irregular attention patterns and degrading
downstream visual processing. While the existing solution for removing these
outliers involves retraining models from scratch with additional learned
register tokens, we use our findings to create a training-free approach to
mitigate these artifacts. By shifting the high-norm activations from our
discovered register neurons into an additional untrained token, we can mimic
the effect of register tokens on a model already trained without registers. We
demonstrate that our method produces cleaner attention and feature maps,
enhances performance over base models across multiple downstream visual tasks,
and achieves results comparable to models explicitly trained with register
tokens. We then extend test-time registers to off-the-shelf vision-language
models to improve their interpretability. Our results suggest that test-time
registers effectively take on the role of register tokens at test-time,
offering a training-free solution for any pre-trained model released without
them.