ChatPaper.aiChatPaper

Vision Transformersは訓練済みレジスタを必要としない

Vision Transformers Don't Need Trained Registers

June 9, 2025
著者: Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
cs.AI

要旨

我々は、Vision Transformersにおいて以前から指摘されていた現象——高ノルムのトークンが生じ、ノイジーなアテンションマップを引き起こすメカニズム——を調査した。複数のモデル(例:CLIP、DINOv2)において、高ノルムの活性化を外れ値トークンに集中させるスパースなニューロンのセットが存在し、不規則なアテンションパターンを引き起こし、下流の視覚処理を劣化させていることを観察した。これらの外れ値を除去する既存の解決策は、追加の学習済みレジスタートークンを用いてモデルをゼロから再学習させることを含むが、我々はこの知見を活用し、これらのアーティファクトを軽減するトレーニング不要のアプローチを開発した。発見されたレジスターニューロンからの高ノルム活性化を、追加の未学習トークンにシフトすることで、レジスタートークンなしで学習済みのモデルにおいて、レジスタートークンの効果を模倣することが可能である。我々の手法が、よりクリーンなアテンションおよび特徴マップを生成し、複数の下流視覚タスクにおいてベースモデルを上回る性能を発揮し、明示的にレジスタートークンで学習されたモデルと同等の結果を達成することを実証した。さらに、テストタイムレジスターを既存の視覚言語モデルに拡張し、それらの解釈可能性を向上させた。我々の結果は、テストタイムレジスターがテスト時にレジスタートークンの役割を効果的に担い、それらが含まれていない事前学習済みモデルに対してトレーニング不要の解決策を提供することを示唆している。
English
We investigate the mechanism underlying a previously identified phenomenon in Vision Transformers -- the emergence of high-norm tokens that lead to noisy attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a sparse set of neurons is responsible for concentrating high-norm activations on outlier tokens, leading to irregular attention patterns and degrading downstream visual processing. While the existing solution for removing these outliers involves retraining models from scratch with additional learned register tokens, we use our findings to create a training-free approach to mitigate these artifacts. By shifting the high-norm activations from our discovered register neurons into an additional untrained token, we can mimic the effect of register tokens on a model already trained without registers. We demonstrate that our method produces cleaner attention and feature maps, enhances performance over base models across multiple downstream visual tasks, and achieves results comparable to models explicitly trained with register tokens. We then extend test-time registers to off-the-shelf vision-language models to improve their interpretability. Our results suggest that test-time registers effectively take on the role of register tokens at test-time, offering a training-free solution for any pre-trained model released without them.
PDF222January 15, 2026