ChatPaper.aiChatPaper

¡Atención, por favor! Revisitando el sondeo atento para el modelado de imágenes enmascaradas

Attention, Please! Revisiting Attentive Probing for Masked Image Modeling

June 11, 2025
Autores: Bill Psomas, Dionysis Christopoulos, Eirini Baltzi, Ioannis Kakogeorgiou, Tilemachos Aravanis, Nikos Komodakis, Konstantinos Karantzalos, Yannis Avrithis, Giorgos Tolias
cs.AI

Resumen

A medida que el ajuste fino (FT, por sus siglas en inglés) se vuelve cada vez más impráctico a gran escala, la evaluación mediante sondeo (probing) está emergiendo como el protocolo preferido para el aprendizaje autosupervisado (SSL, por sus siglas en inglés). Sin embargo, el sondeo lineal estándar (LP, por sus siglas en inglés) no logra reflejar adecuadamente el potencial de los modelos entrenados con Modelado de Imágenes Enmascaradas (MIM, por sus siglas en inglés), debido a la naturaleza distribuida de los tokens de parches. Esto motiva la necesidad de un sondeo atento, una alternativa que utiliza la atención para agregar selectivamente características a nivel de parche. A pesar de su creciente adopción, el sondeo atento sigue siendo poco explorado, y los métodos existentes sufren de una excesiva parametrización y una pobre eficiencia computacional. En este trabajo, revisitamos el sondeo atento desde la perspectiva del equilibrio entre precisión y eficiencia. Realizamos un estudio sistemático de los métodos existentes, analizando sus mecanismos y evaluando su rendimiento. Introducimos el sondeo eficiente (EP, por sus siglas en inglés), un mecanismo de atención cruzada de múltiples consultas que elimina proyecciones redundantes, reduce el número de parámetros entrenables y logra una aceleración de hasta 10 veces en comparación con la atención multi-cabeza convencional. A pesar de su simplicidad, EP supera a LP y a los enfoques previos de sondeo atento en siete puntos de referencia, generaliza bien más allá de MIM hacia diversos paradigmas de preentrenamiento, produce mapas de atención interpretables y logra fuertes ganancias en configuraciones de pocos ejemplos (low-shot) y por capas. El código está disponible en https://github.com/billpsomas/efficient-probing.
English
As fine-tuning (FT) becomes increasingly impractical at scale, probing is emerging as the preferred evaluation protocol for self-supervised learning (SSL). Yet, the standard linear probing (LP) fails to adequately reflect the potential of models trained with Masked Image Modeling (MIM), due to the distributed nature of patch tokens. This motivates the need for attentive probing, an alternative that uses attention to selectively aggregate patch-level features. Despite its growing adoption, attentive probing remains under-explored, with existing methods suffering from excessive parameterization and poor computational efficiency. In this work, we revisit attentive probing through the lens of the accuracy-efficiency trade-off. We conduct a systematic study of existing methods, analyzing their mechanisms and benchmarking their performance. We introduce efficient probing (EP), a multi-query cross-attention mechanism that eliminates redundant projections, reduces the number of trainable parameters, and achieves up to a 10times speed-up over conventional multi-head attention. Despite its simplicity, EP outperforms LP and prior attentive probing approaches across seven benchmarks, generalizes well beyond MIM to diverse pre-training paradigms, produces interpretable attention maps, and achieves strong gains in low-shot and layer-wise settings. Code available at https://github.com/billpsomas/efficient-probing.
PDF72June 13, 2025