Los Transformadores de Visión No Necesitan Registros Entrenados

Resumen

Investigamos el mecanismo subyacente a un fenómeno previamente identificado en los Transformers de Visión: la aparición de tokens de alta norma que generan mapas de atención ruidosos. Observamos que, en múltiples modelos (por ejemplo, CLIP, DINOv2), un conjunto disperso de neuronas es responsable de concentrar activaciones de alta norma en tokens atípicos, lo que conduce a patrones de atención irregulares y degrada el procesamiento visual posterior. Mientras que la solución existente para eliminar estos valores atípicos implica reentrenar los modelos desde cero con tokens de registro adicionales aprendidos, utilizamos nuestros hallazgos para crear un enfoque sin entrenamiento que mitiga estos artefactos. Al trasladar las activaciones de alta norma de las neuronas de registro descubiertas a un token adicional no entrenado, podemos imitar el efecto de los tokens de registro en un modelo ya entrenado sin ellos. Demostramos que nuestro método produce mapas de atención y características más limpios, mejora el rendimiento sobre los modelos base en múltiples tareas visuales posteriores y logra resultados comparables a los modelos entrenados explícitamente con tokens de registro. Luego, extendemos los registros en tiempo de prueba a modelos de visión-lenguaje disponibles comercialmente para mejorar su interpretabilidad. Nuestros resultados sugieren que los registros en tiempo de prueba asumen efectivamente el papel de los tokens de registro durante la prueba, ofreciendo una solución sin entrenamiento para cualquier modelo preentrenado lanzado sin ellos.

English

We investigate the mechanism underlying a previously identified phenomenon in Vision Transformers -- the emergence of high-norm tokens that lead to noisy attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a sparse set of neurons is responsible for concentrating high-norm activations on outlier tokens, leading to irregular attention patterns and degrading downstream visual processing. While the existing solution for removing these outliers involves retraining models from scratch with additional learned register tokens, we use our findings to create a training-free approach to mitigate these artifacts. By shifting the high-norm activations from our discovered register neurons into an additional untrained token, we can mimic the effect of register tokens on a model already trained without registers. We demonstrate that our method produces cleaner attention and feature maps, enhances performance over base models across multiple downstream visual tasks, and achieves results comparable to models explicitly trained with register tokens. We then extend test-time registers to off-the-shelf vision-language models to improve their interpretability. Our results suggest that test-time registers effectively take on the role of register tokens at test-time, offering a training-free solution for any pre-trained model released without them.

Los Transformadores de Visión No Necesitan Registros Entrenados

Vision Transformers Don't Need Trained Registers

Resumen

Support