Внимание, пожалуйста! Переосмысление внимательного зондирования для моделирования маскированных изображений
Attention, Please! Revisiting Attentive Probing for Masked Image Modeling
June 11, 2025
Авторы: Bill Psomas, Dionysis Christopoulos, Eirini Baltzi, Ioannis Kakogeorgiou, Tilemachos Aravanis, Nikos Komodakis, Konstantinos Karantzalos, Yannis Avrithis, Giorgos Tolias
cs.AI
Аннотация
По мере того как тонкая настройка (fine-tuning, FT) становится все менее практичной в условиях масштабирования, зондирование (probing) становится предпочтительным протоколом оценки для самообучения (self-supervised learning, SSL). Однако стандартное линейное зондирование (linear probing, LP) неадекватно отражает потенциал моделей, обученных с использованием маскированного моделирования изображений (Masked Image Modeling, MIM), из-за распределенного характера токенов патчей. Это мотивирует необходимость внимательного зондирования (attentive probing), альтернативного подхода, который использует внимание для избирательной агрегации признаков на уровне патчей. Несмотря на растущее применение, внимательное зондирование остается недостаточно изученным, а существующие методы страдают от избыточной параметризации и низкой вычислительной эффективности.
В данной работе мы пересматриваем внимательное зондирование через призму компромисса между точностью и эффективностью. Мы проводим систематическое исследование существующих методов, анализируя их механизмы и сравнивая их производительность. Мы представляем эффективное зондирование (efficient probing, EP), механизм кросс-внимания с множественными запросами, который устраняет избыточные проекции, сокращает количество обучаемых параметров и обеспечивает до 10-кратного ускорения по сравнению с традиционным многоголовым вниманием. Несмотря на свою простоту, EP превосходит LP и предыдущие подходы к внимательному зондированию на семи тестовых наборах, демонстрирует хорошую обобщаемость за пределами MIM для различных парадигм предварительного обучения, создает интерпретируемые карты внимания и достигает значительных улучшений в условиях малого количества данных и послойного анализа. Код доступен по адресу https://github.com/billpsomas/efficient-probing.
English
As fine-tuning (FT) becomes increasingly impractical at scale, probing is
emerging as the preferred evaluation protocol for self-supervised learning
(SSL). Yet, the standard linear probing (LP) fails to adequately reflect the
potential of models trained with Masked Image Modeling (MIM), due to the
distributed nature of patch tokens. This motivates the need for attentive
probing, an alternative that uses attention to selectively aggregate
patch-level features. Despite its growing adoption, attentive probing remains
under-explored, with existing methods suffering from excessive parameterization
and poor computational efficiency.
In this work, we revisit attentive probing through the lens of the
accuracy-efficiency trade-off. We conduct a systematic study of existing
methods, analyzing their mechanisms and benchmarking their performance. We
introduce efficient probing (EP), a multi-query cross-attention mechanism that
eliminates redundant projections, reduces the number of trainable parameters,
and achieves up to a 10times speed-up over conventional multi-head
attention. Despite its simplicity, EP outperforms LP and prior attentive
probing approaches across seven benchmarks, generalizes well beyond MIM to
diverse pre-training paradigms, produces interpretable attention maps, and
achieves strong gains in low-shot and layer-wise settings. Code available at
https://github.com/billpsomas/efficient-probing.