Aandacht alstublieft! Opnieuw bekijken van aandachtige probing voor gemaskeerde beeldmodellering
Attention, Please! Revisiting Attentive Probing for Masked Image Modeling
June 11, 2025
Auteurs: Bill Psomas, Dionysis Christopoulos, Eirini Baltzi, Ioannis Kakogeorgiou, Tilemachos Aravanis, Nikos Komodakis, Konstantinos Karantzalos, Yannis Avrithis, Giorgos Tolias
cs.AI
Samenvatting
Naarmate fine-tuning (FT) op grote schaal steeds onpraktischer wordt, komt probing naar voren als het voorkeursprotocol voor evaluatie bij zelfgestuurd leren (SSL). Echter faalt het standaard lineaire probing (LP) om het potentieel van modellen die getraind zijn met Masked Image Modeling (MIM) adequaat weer te geven, vanwege de gedistribueerde aard van patch-tokens. Dit motiveert de behoefte aan attentive probing, een alternatief dat aandacht gebruikt om patch-level kenmerken selectief te aggregeren. Ondanks de groeiende adoptie blijft attentive probing onderbelicht, waarbij bestaande methoden lijden onder overmatige parameterisatie en slechte rekenkundige efficiëntie.
In dit werk herzien we attentive probing vanuit het perspectief van de nauwkeurigheid-efficiëntie afweging. We voeren een systematische studie uit van bestaande methoden, analyseren hun mechanismen en benchmarken hun prestaties. We introduceren efficient probing (EP), een multi-query cross-attention mechanisme dat overbodige projecties elimineert, het aantal trainbare parameters vermindert en tot een 10-voudige snelheidswinst behaalt ten opzichte van conventionele multi-head attention. Ondanks zijn eenvoud overtreft EP LP en eerdere attentive probing benaderingen over zeven benchmarks, generaliseert het goed buiten MIM naar diverse voorafgaande trainingsparadigma's, produceert het interpreteerbare aandachtkaarten en behaalt het sterke winsten in low-shot en layer-wise instellingen. Code beschikbaar op https://github.com/billpsomas/efficient-probing.
English
As fine-tuning (FT) becomes increasingly impractical at scale, probing is
emerging as the preferred evaluation protocol for self-supervised learning
(SSL). Yet, the standard linear probing (LP) fails to adequately reflect the
potential of models trained with Masked Image Modeling (MIM), due to the
distributed nature of patch tokens. This motivates the need for attentive
probing, an alternative that uses attention to selectively aggregate
patch-level features. Despite its growing adoption, attentive probing remains
under-explored, with existing methods suffering from excessive parameterization
and poor computational efficiency.
In this work, we revisit attentive probing through the lens of the
accuracy-efficiency trade-off. We conduct a systematic study of existing
methods, analyzing their mechanisms and benchmarking their performance. We
introduce efficient probing (EP), a multi-query cross-attention mechanism that
eliminates redundant projections, reduces the number of trainable parameters,
and achieves up to a 10times speed-up over conventional multi-head
attention. Despite its simplicity, EP outperforms LP and prior attentive
probing approaches across seven benchmarks, generalizes well beyond MIM to
diverse pre-training paradigms, produces interpretable attention maps, and
achieves strong gains in low-shot and layer-wise settings. Code available at
https://github.com/billpsomas/efficient-probing.