ChatPaper.aiChatPaper

Achtung, bitte beachten! Eine Neubetrachtung von aufmerksamkeitsbasierten Sondierungsmethoden für maskierte Bildmodellierung

Attention, Please! Revisiting Attentive Probing for Masked Image Modeling

June 11, 2025
Autoren: Bill Psomas, Dionysis Christopoulos, Eirini Baltzi, Ioannis Kakogeorgiou, Tilemachos Aravanis, Nikos Komodakis, Konstantinos Karantzalos, Yannis Avrithis, Giorgos Tolias
cs.AI

Zusammenfassung

Da das Fine-Tuning (FT) mit zunehmender Skalierung immer unpraktischer wird, etabliert sich das Probing als bevorzugtes Evaluierungsprotokoll für selbstüberwachtes Lernen (SSL). Dennoch scheitert das Standard-Linear-Probing (LP) daran, das Potenzial von Modellen, die mit Masked Image Modeling (MIM) trainiert wurden, angemessen widerzuspiegeln, was auf die verteilte Natur von Patch-Tokens zurückzuführen ist. Dies motiviert die Notwendigkeit von Attentive Probing, einer Alternative, die Aufmerksamkeit nutzt, um Patch-Level-Features selektiv zu aggregieren. Trotz zunehmender Verbreitung bleibt Attentive Probing untererforscht, wobei bestehende Methoden unter übermäßiger Parametrisierung und schlechter Recheneffizienz leiden. In dieser Arbeit betrachten wir Attentive Probing neu durch die Linse des Genauigkeits-Effizienz-Kompromisses. Wir führen eine systematische Studie bestehender Methoden durch, analysieren deren Mechanismen und benchmarken ihre Leistung. Wir stellen Efficient Probing (EP) vor, einen Multi-Query-Cross-Attention-Mechanismus, der redundante Projektionen eliminiert, die Anzahl der trainierbaren Parameter reduziert und eine bis zu 10-fache Beschleunigung gegenüber herkömmlicher Multi-Head-Attention erreicht. Trotz seiner Einfachheit übertrifft EP LP und frühere Attentive-Probing-Ansätze über sieben Benchmarks hinweg, generalisiert gut über MIM hinaus auf diverse Vortrainingsparadigmen, erzeugt interpretierbare Aufmerksamkeitskarten und erzielt starke Gewinne in Low-Shot- und Layer-wise-Szenarien. Code verfügbar unter https://github.com/billpsomas/efficient-probing.
English
As fine-tuning (FT) becomes increasingly impractical at scale, probing is emerging as the preferred evaluation protocol for self-supervised learning (SSL). Yet, the standard linear probing (LP) fails to adequately reflect the potential of models trained with Masked Image Modeling (MIM), due to the distributed nature of patch tokens. This motivates the need for attentive probing, an alternative that uses attention to selectively aggregate patch-level features. Despite its growing adoption, attentive probing remains under-explored, with existing methods suffering from excessive parameterization and poor computational efficiency. In this work, we revisit attentive probing through the lens of the accuracy-efficiency trade-off. We conduct a systematic study of existing methods, analyzing their mechanisms and benchmarking their performance. We introduce efficient probing (EP), a multi-query cross-attention mechanism that eliminates redundant projections, reduces the number of trainable parameters, and achieves up to a 10times speed-up over conventional multi-head attention. Despite its simplicity, EP outperforms LP and prior attentive probing approaches across seven benchmarks, generalizes well beyond MIM to diverse pre-training paradigms, produces interpretable attention maps, and achieves strong gains in low-shot and layer-wise settings. Code available at https://github.com/billpsomas/efficient-probing.
PDF72June 13, 2025