Los Transformadores de Visión No Necesitan Registros Entrenados
Vision Transformers Don't Need Trained Registers
June 9, 2025
Autores: Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
cs.AI
Resumen
Investigamos el mecanismo subyacente a un fenómeno previamente identificado en los Transformers de Visión: la aparición de tokens de alta norma que generan mapas de atención ruidosos. Observamos que, en múltiples modelos (por ejemplo, CLIP, DINOv2), un conjunto disperso de neuronas es responsable de concentrar activaciones de alta norma en tokens atípicos, lo que conduce a patrones de atención irregulares y degrada el procesamiento visual posterior. Mientras que la solución existente para eliminar estos valores atípicos implica reentrenar los modelos desde cero con tokens de registro adicionales aprendidos, utilizamos nuestros hallazgos para crear un enfoque sin entrenamiento que mitiga estos artefactos. Al trasladar las activaciones de alta norma de las neuronas de registro descubiertas a un token adicional no entrenado, podemos imitar el efecto de los tokens de registro en un modelo ya entrenado sin ellos. Demostramos que nuestro método produce mapas de atención y características más limpios, mejora el rendimiento sobre los modelos base en múltiples tareas visuales posteriores y logra resultados comparables a los modelos entrenados explícitamente con tokens de registro. Luego, extendemos los registros en tiempo de prueba a modelos de visión-lenguaje disponibles comercialmente para mejorar su interpretabilidad. Nuestros resultados sugieren que los registros en tiempo de prueba asumen efectivamente el papel de los tokens de registro durante la prueba, ofreciendo una solución sin entrenamiento para cualquier modelo preentrenado lanzado sin ellos.
English
We investigate the mechanism underlying a previously identified phenomenon in
Vision Transformers -- the emergence of high-norm tokens that lead to noisy
attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a
sparse set of neurons is responsible for concentrating high-norm activations on
outlier tokens, leading to irregular attention patterns and degrading
downstream visual processing. While the existing solution for removing these
outliers involves retraining models from scratch with additional learned
register tokens, we use our findings to create a training-free approach to
mitigate these artifacts. By shifting the high-norm activations from our
discovered register neurons into an additional untrained token, we can mimic
the effect of register tokens on a model already trained without registers. We
demonstrate that our method produces cleaner attention and feature maps,
enhances performance over base models across multiple downstream visual tasks,
and achieves results comparable to models explicitly trained with register
tokens. We then extend test-time registers to off-the-shelf vision-language
models to improve their interpretability. Our results suggest that test-time
registers effectively take on the role of register tokens at test-time,
offering a training-free solution for any pre-trained model released without
them.