Capa por capa, módulo por módulo: Elija ambos para una exploración OOD óptima de ViT

Resumen

Estudios recientes han observado que las capas intermedias de los modelos fundacionales a menudo producen representaciones más discriminativas que la capa final. Aunque inicialmente se atribuyó al preentrenamiento autoregresivo, este fenómeno también se ha identificado en modelos entrenados mediante objetivos supervisados y de auto-supervisión discriminativa. En este artículo, realizamos un estudio exhaustivo para analizar el comportamiento de las capas intermedias en transformadores de visión preentrenados. A través de extensos experimentos de sondeo lineal en un conjunto diverso de benchmarks de clasificación de imágenes, encontramos que el cambio de distribución entre los datos de preentrenamiento y los datos de destino es la causa principal de la degradación del rendimiento en las capas más profundas. Además, realizamos un análisis detallado a nivel de módulo. Nuestros hallazgos revelan que el sondeo estándar de las salidas de los bloques del transformador es subóptimo; en su lugar, sondear la activación dentro de la red neuronal de avance produce el mejor rendimiento bajo un cambio de distribución significativo, mientras que la salida normalizada del módulo de autoatención multicabezal es óptima cuando el cambio es débil.

English

Recent studies have observed that intermediate layers of foundation models often yield more discriminative representations than the final layer. While initially attributed to autoregressive pretraining, this phenomenon has also been identified in models trained via supervised and discriminative self-supervised objectives. In this paper, we conduct a comprehensive study to analyze the behavior of intermediate layers in pretrained vision transformers. Through extensive linear probing experiments across a diverse set of image classification benchmarks, we find that distribution shift between pretraining and downstream data is the primary cause of performance degradation in deeper layers. Furthermore, we perform a fine-grained analysis at the module level. Our findings reveal that standard probing of transformer block outputs is suboptimal; instead, probing the activation within the feedforward network yields the best performance under significant distribution shift, whereas the normalized output of the multi-head self-attention module is optimal when the shift is weak.

Capa por capa, módulo por módulo: Elija ambos para una exploración OOD óptima de ViT

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Resumen

Support