Vision Transformers не нуждаются в обученных регистрах
Vision Transformers Don't Need Trained Registers
June 9, 2025
Авторы: Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
cs.AI
Аннотация
Мы исследуем механизм, лежащий в основе ранее выявленного феномена в Vision Transformers — появление токенов с высокой нормой, которые приводят к зашумленным картам внимания. Мы наблюдаем, что в нескольких моделях (например, CLIP, DINOv2) небольшой набор нейронов отвечает за концентрацию активаций с высокой нормой на выбросных токенах, что приводит к нерегулярным паттернам внимания и ухудшает последующую обработку визуальных данных. Хотя существующее решение для устранения этих выбросов предполагает переобучение моделей с нуля с использованием дополнительных обучаемых регистровых токенов, мы используем наши результаты для создания подхода, не требующего обучения, чтобы смягчить эти артефакты. Путем переноса активаций с высокой нормой из обнаруженных нами регистровых нейронов в дополнительный необученный токен мы можем имитировать эффект регистровых токенов в модели, уже обученной без них. Мы демонстрируем, что наш метод создает более чистые карты внимания и признаков, улучшает производительность базовых моделей в различных визуальных задачах и достигает результатов, сопоставимых с моделями, явно обученными с регистровыми токенами. Затем мы расширяем использование регистров на этапе тестирования на готовые модели для обработки визуальных и языковых данных, чтобы повысить их интерпретируемость. Наши результаты показывают, что регистры на этапе тестирования эффективно выполняют роль регистровых токенов в процессе тестирования, предлагая решение, не требующее обучения, для любой предварительно обученной модели, выпущенной без них.
English
We investigate the mechanism underlying a previously identified phenomenon in
Vision Transformers -- the emergence of high-norm tokens that lead to noisy
attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a
sparse set of neurons is responsible for concentrating high-norm activations on
outlier tokens, leading to irregular attention patterns and degrading
downstream visual processing. While the existing solution for removing these
outliers involves retraining models from scratch with additional learned
register tokens, we use our findings to create a training-free approach to
mitigate these artifacts. By shifting the high-norm activations from our
discovered register neurons into an additional untrained token, we can mimic
the effect of register tokens on a model already trained without registers. We
demonstrate that our method produces cleaner attention and feature maps,
enhances performance over base models across multiple downstream visual tasks,
and achieves results comparable to models explicitly trained with register
tokens. We then extend test-time registers to off-the-shelf vision-language
models to improve their interpretability. Our results suggest that test-time
registers effectively take on the role of register tokens at test-time,
offering a training-free solution for any pre-trained model released without
them.