ChatPaper.aiChatPaper

Attention, s'il vous plaît ! Réexamen de l'exploration attentive pour la modélisation d'images masquées

Attention, Please! Revisiting Attentive Probing for Masked Image Modeling

June 11, 2025
papers.authors: Bill Psomas, Dionysis Christopoulos, Eirini Baltzi, Ioannis Kakogeorgiou, Tilemachos Aravanis, Nikos Komodakis, Konstantinos Karantzalos, Yannis Avrithis, Giorgos Tolias
cs.AI

papers.abstract

Alors que le réglage fin (FT) devient de plus en plus impraticable à grande échelle, le sondage émerge comme le protocole d'évaluation privilégié pour l'apprentissage auto-supervisé (SSL). Cependant, le sondage linéaire standard (LP) ne parvient pas à refléter adéquatement le potentiel des modèles entraînés avec la modélisation d'images masquées (MIM), en raison de la nature distribuée des tokens de patch. Cela motive la nécessité d'un sondage attentif, une alternative qui utilise l'attention pour agréger de manière sélective les caractéristiques au niveau des patchs. Malgré son adoption croissante, le sondage attentif reste peu exploré, les méthodes existantes souffrant d'une paramétrisation excessive et d'une faible efficacité computationnelle. Dans ce travail, nous revisitons le sondage attentif à travers le prisme du compromis précision-efficacité. Nous menons une étude systématique des méthodes existantes, en analysant leurs mécanismes et en évaluant leurs performances. Nous introduisons le sondage efficace (EP), un mécanisme d'attention croisée multi-requêtes qui élimine les projections redondantes, réduit le nombre de paramètres entraînables et permet une accélération jusqu'à 10 fois par rapport à l'attention multi-têtes conventionnelle. Malgré sa simplicité, EP surpasse LP et les approches de sondage attentif précédentes sur sept benchmarks, se généralise bien au-delà de MIM à divers paradigmes de pré-entraînement, produit des cartes d'attention interprétables et obtient des gains significatifs dans des contextes de faible échantillonnage et d'analyse par couches. Le code est disponible à l'adresse https://github.com/billpsomas/efficient-probing.
English
As fine-tuning (FT) becomes increasingly impractical at scale, probing is emerging as the preferred evaluation protocol for self-supervised learning (SSL). Yet, the standard linear probing (LP) fails to adequately reflect the potential of models trained with Masked Image Modeling (MIM), due to the distributed nature of patch tokens. This motivates the need for attentive probing, an alternative that uses attention to selectively aggregate patch-level features. Despite its growing adoption, attentive probing remains under-explored, with existing methods suffering from excessive parameterization and poor computational efficiency. In this work, we revisit attentive probing through the lens of the accuracy-efficiency trade-off. We conduct a systematic study of existing methods, analyzing their mechanisms and benchmarking their performance. We introduce efficient probing (EP), a multi-query cross-attention mechanism that eliminates redundant projections, reduces the number of trainable parameters, and achieves up to a 10times speed-up over conventional multi-head attention. Despite its simplicity, EP outperforms LP and prior attentive probing approaches across seven benchmarks, generalizes well beyond MIM to diverse pre-training paradigms, produces interpretable attention maps, and achieves strong gains in low-shot and layer-wise settings. Code available at https://github.com/billpsomas/efficient-probing.
PDF82June 13, 2025