Attenzione, per favore! Rivalutazione del probing attento per la modellazione di immagini mascherate
Attention, Please! Revisiting Attentive Probing for Masked Image Modeling
June 11, 2025
Autori: Bill Psomas, Dionysis Christopoulos, Eirini Baltzi, Ioannis Kakogeorgiou, Tilemachos Aravanis, Nikos Komodakis, Konstantinos Karantzalos, Yannis Avrithis, Giorgos Tolias
cs.AI
Abstract
Man mano che il fine-tuning (FT) diventa sempre più impraticabile su larga scala, il probing sta emergendo come protocollo di valutazione preferito per l'apprendimento auto-supervisionato (SSL). Tuttavia, il classico linear probing (LP) non riesce a riflettere adeguatamente il potenziale dei modelli addestrati con Masked Image Modeling (MIM), a causa della natura distribuita dei token di patch. Ciò motiva la necessità di un attentive probing, un'alternativa che utilizza l'attenzione per aggregare selettivamente le caratteristiche a livello di patch. Nonostante la sua crescente adozione, l'attentive probing rimane poco esplorato, con i metodi esistenti che soffrono di un'eccessiva parametrizzazione e di una scarsa efficienza computazionale.
In questo lavoro, riprendiamo l'attentive probing attraverso la lente del compromesso precisione-efficienza. Condurremo uno studio sistematico dei metodi esistenti, analizzandone i meccanismi e confrontandone le prestazioni. Introduciamo l'efficient probing (EP), un meccanismo di cross-attention multi-query che elimina le proiezioni ridondanti, riduce il numero di parametri addestrabili e raggiunge un'accelerazione fino a 10 volte rispetto alla classica multi-head attention. Nonostante la sua semplicità, EP supera LP e i precedenti approcci di attentive probing su sette benchmark, generalizza bene oltre il MIM a diversi paradigmi di pre-training, produce mappe di attenzione interpretabili e ottiene forti guadagni in contesti low-shot e layer-wise. Il codice è disponibile all'indirizzo https://github.com/billpsomas/efficient-probing.
English
As fine-tuning (FT) becomes increasingly impractical at scale, probing is
emerging as the preferred evaluation protocol for self-supervised learning
(SSL). Yet, the standard linear probing (LP) fails to adequately reflect the
potential of models trained with Masked Image Modeling (MIM), due to the
distributed nature of patch tokens. This motivates the need for attentive
probing, an alternative that uses attention to selectively aggregate
patch-level features. Despite its growing adoption, attentive probing remains
under-explored, with existing methods suffering from excessive parameterization
and poor computational efficiency.
In this work, we revisit attentive probing through the lens of the
accuracy-efficiency trade-off. We conduct a systematic study of existing
methods, analyzing their mechanisms and benchmarking their performance. We
introduce efficient probing (EP), a multi-query cross-attention mechanism that
eliminates redundant projections, reduces the number of trainable parameters,
and achieves up to a 10times speed-up over conventional multi-head
attention. Despite its simplicity, EP outperforms LP and prior attentive
probing approaches across seven benchmarks, generalizes well beyond MIM to
diverse pre-training paradigms, produces interpretable attention maps, and
achieves strong gains in low-shot and layer-wise settings. Code available at
https://github.com/billpsomas/efficient-probing.