ChatPaper.aiChatPaper

Atenção, por favor! Revisitando a Sondagem Atenta para Modelagem de Imagens Mascaradas

Attention, Please! Revisiting Attentive Probing for Masked Image Modeling

June 11, 2025
Autores: Bill Psomas, Dionysis Christopoulos, Eirini Baltzi, Ioannis Kakogeorgiou, Tilemachos Aravanis, Nikos Komodakis, Konstantinos Karantzalos, Yannis Avrithis, Giorgos Tolias
cs.AI

Resumo

À medida que o fine-tuning (FT) se torna cada vez mais impraticável em escala, o probing está emergindo como o protocolo de avaliação preferido para o aprendizado auto-supervisionado (SSL). No entanto, o linear probing (LP) padrão falha em refletir adequadamente o potencial dos modelos treinados com Masked Image Modeling (MIM), devido à natureza distribuída dos tokens de patches. Isso motiva a necessidade de attentive probing, uma alternativa que usa atenção para agregar seletivamente características em nível de patch. Apesar de sua crescente adoção, o attentive probing permanece pouco explorado, com os métodos existentes sofrendo de excessiva parametrização e baixa eficiência computacional. Neste trabalho, revisitamos o attentive probing sob a ótica da relação entre precisão e eficiência. Realizamos um estudo sistemático dos métodos existentes, analisando seus mecanismos e avaliando seu desempenho. Introduzimos o efficient probing (EP), um mecanismo de atenção cruzada multi-query que elimina projeções redundantes, reduz o número de parâmetros treináveis e alcança uma aceleração de até 10 vezes em comparação com a atenção multi-head convencional. Apesar de sua simplicidade, o EP supera o LP e abordagens anteriores de attentive probing em sete benchmarks, generaliza bem além do MIM para diversos paradigmas de pré-treinamento, produz mapas de atenção interpretáveis e alcança ganhos significativos em configurações de baixo-shot e camada a camada. Código disponível em https://github.com/billpsomas/efficient-probing.
English
As fine-tuning (FT) becomes increasingly impractical at scale, probing is emerging as the preferred evaluation protocol for self-supervised learning (SSL). Yet, the standard linear probing (LP) fails to adequately reflect the potential of models trained with Masked Image Modeling (MIM), due to the distributed nature of patch tokens. This motivates the need for attentive probing, an alternative that uses attention to selectively aggregate patch-level features. Despite its growing adoption, attentive probing remains under-explored, with existing methods suffering from excessive parameterization and poor computational efficiency. In this work, we revisit attentive probing through the lens of the accuracy-efficiency trade-off. We conduct a systematic study of existing methods, analyzing their mechanisms and benchmarking their performance. We introduce efficient probing (EP), a multi-query cross-attention mechanism that eliminates redundant projections, reduces the number of trainable parameters, and achieves up to a 10times speed-up over conventional multi-head attention. Despite its simplicity, EP outperforms LP and prior attentive probing approaches across seven benchmarks, generalizes well beyond MIM to diverse pre-training paradigms, produces interpretable attention maps, and achieves strong gains in low-shot and layer-wise settings. Code available at https://github.com/billpsomas/efficient-probing.
PDF72June 13, 2025