Camada por camada, módulo por módulo: Escolha ambos para uma análise ideal de detecção de dados fora da distribuição (OOD) em ViT
Layer by layer, module by module: Choose both for optimal OOD probing of ViT
March 5, 2026
Autores: Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko
cs.AI
Resumo
Estudos recentes observaram que as camadas intermediárias de modelos de base frequentemente produzem representações mais discriminativas do que a camada final. Embora inicialmente atribuído ao pré-treinamento autoregressivo, este fenômeno também foi identificado em modelos treinados por meio de objetivos supervisionados e de auto-supervisão discriminativa. Neste artigo, realizamos um estudo abrangente para analisar o comportamento das camadas intermediárias em transformadores de visão pré-treinados. Através de extensos experimentos de sondagem linear em um conjunto diversificado de benchmarks de classificação de imagens, descobrimos que a mudança de distribuição entre os dados de pré-treinamento e os dados de aplicação é a principal causa da degradação de desempenho nas camadas mais profundas. Além disso, realizamos uma análise refinada ao nível do módulo. Nossos resultados revelam que a sondagem padrão das saídas dos blocos do transformador é subótima; em vez disso, sondar a ativação dentro da rede feedforward produz o melhor desempenho sob mudança de distribuição significativa, enquanto a saída normalizada do módulo de auto-atenção multi-cabeça é ótima quando a mudança é fraca.
English
Recent studies have observed that intermediate layers of foundation models often yield more discriminative representations than the final layer. While initially attributed to autoregressive pretraining, this phenomenon has also been identified in models trained via supervised and discriminative self-supervised objectives. In this paper, we conduct a comprehensive study to analyze the behavior of intermediate layers in pretrained vision transformers. Through extensive linear probing experiments across a diverse set of image classification benchmarks, we find that distribution shift between pretraining and downstream data is the primary cause of performance degradation in deeper layers. Furthermore, we perform a fine-grained analysis at the module level. Our findings reveal that standard probing of transformer block outputs is suboptimal; instead, probing the activation within the feedforward network yields the best performance under significant distribution shift, whereas the normalized output of the multi-head self-attention module is optimal when the shift is weak.