ChatPaper.aiChatPaper

비전 트랜스포머는 학습된 레지스터가 필요하지 않다.

Vision Transformers Don't Need Trained Registers

June 9, 2025
저자: Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
cs.AI

초록

우리는 Vision Transformers에서 이전에 확인된 현상, 즉 노이즈가 많은 어텐션 맵을 초래하는 고노름(norm) 토큰의 발생 메커니즘을 연구합니다. 여러 모델(예: CLIP, DINOv2)에서 소수의 뉴런이 아웃라이어(outlier) 토큰에 고노름 활성화를 집중시키며, 이는 불규칙한 어텐션 패턴을 유발하고 다운스트림 시각 처리 성능을 저하시키는 것을 관찰했습니다. 기존의 아웃라이어 제거 방법은 추가 학습된 레지스터(register) 토큰을 사용해 모델을 처음부터 재학습시키는 것이었지만, 우리는 이러한 발견을 바탕으로 학습이 필요 없는 접근법을 개발하여 이러한 아티팩트를 완화합니다. 우리가 발견한 레지스터 뉴런에서 고노름 활성화를 추가로 학습되지 않은 토큰으로 이동시킴으로써, 레지스터 토큰 없이 학습된 모델에서도 레지스터 토큰의 효과를 모방할 수 있습니다. 우리의 방법이 더 깔끔한 어텐션 및 특징 맵을 생성하고, 다양한 다운스트림 시각 작업에서 기본 모델 대비 성능을 향상시키며, 레지스터 토큰을 명시적으로 학습한 모델과 비슷한 결과를 달성함을 입증합니다. 또한, 테스트 시점 레지스터를 즉시 사용 가능한 시각-언어 모델에 확장하여 해석 가능성을 개선합니다. 우리의 결과는 테스트 시점 레지스터가 테스트 시점에서 레지스터 토큰의 역할을 효과적으로 수행하며, 이를 포함하지 않고 출시된 사전 학습 모델에 대해 학습이 필요 없는 솔루션을 제공함을 시사합니다.
English
We investigate the mechanism underlying a previously identified phenomenon in Vision Transformers -- the emergence of high-norm tokens that lead to noisy attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a sparse set of neurons is responsible for concentrating high-norm activations on outlier tokens, leading to irregular attention patterns and degrading downstream visual processing. While the existing solution for removing these outliers involves retraining models from scratch with additional learned register tokens, we use our findings to create a training-free approach to mitigate these artifacts. By shifting the high-norm activations from our discovered register neurons into an additional untrained token, we can mimic the effect of register tokens on a model already trained without registers. We demonstrate that our method produces cleaner attention and feature maps, enhances performance over base models across multiple downstream visual tasks, and achieves results comparable to models explicitly trained with register tokens. We then extend test-time registers to off-the-shelf vision-language models to improve their interpretability. Our results suggest that test-time registers effectively take on the role of register tokens at test-time, offering a training-free solution for any pre-trained model released without them.
PDF222January 15, 2026