Laag voor laag, module voor module: Kies beide voor optimale OOD-detectie van ViT
Layer by layer, module by module: Choose both for optimal OOD probing of ViT
March 5, 2026
Auteurs: Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko
cs.AI
Samenvatting
Recente studies hebben waargenomen dat de tussenlagen van foundation-modellen vaak meer onderscheidende representaties opleveren dan de laatste laag. Hoewel dit fenomeen aanvankelijk werd toegeschreven aan autoregressieve voorafgaande training, is het ook geïdentificeerd in modellen die zijn getraind met supervised en discriminerende zelf-toezichthoudende doelen. In dit artikel voeren we een uitgebreide studie uit om het gedrag van tussenlagen in vooraf getrainde vision transformers te analyseren. Door middel van uitgebreide lineaire probing-experimenten op een diverse reeks beeldclassificatiebenchmarks, stellen we vast dat distributieverschuiving tussen de voorafgaande training en de downstreamgegevens de primaire oorzaak is van prestatievermindering in diepere lagen. Verder voeren we een fijnmazige analyse uit op moduleniveau. Onze bevindingen onthullen dat standaard probing van transformer-blokuitvoer suboptimaal is; in plaats daarvan levert het testen van de activering binnen het feedforward-netwerk de beste prestaties onder significante distributieverschuiving, terwijl de genormaliseerde uitvoer van de multi-head self-attention module optimaal is wanneer de verschuiving zwak is.
English
Recent studies have observed that intermediate layers of foundation models often yield more discriminative representations than the final layer. While initially attributed to autoregressive pretraining, this phenomenon has also been identified in models trained via supervised and discriminative self-supervised objectives. In this paper, we conduct a comprehensive study to analyze the behavior of intermediate layers in pretrained vision transformers. Through extensive linear probing experiments across a diverse set of image classification benchmarks, we find that distribution shift between pretraining and downstream data is the primary cause of performance degradation in deeper layers. Furthermore, we perform a fine-grained analysis at the module level. Our findings reveal that standard probing of transformer block outputs is suboptimal; instead, probing the activation within the feedforward network yields the best performance under significant distribution shift, whereas the normalized output of the multi-head self-attention module is optimal when the shift is weak.