Van nature betrouwbare aandachtkaarten voor Vision Transformers
Inherently Faithful Attention Maps for Vision Transformers
June 10, 2025
Auteurs: Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos
cs.AI
Samenvatting
We introduceren een op aandacht gebaseerde methode die gebruikmaakt van geleerde binaire aandachtmaskers om ervoor te zorgen dat alleen de aandachtgebieden in de afbeelding de voorspelling beïnvloeden. Context kan de objectwaarneming sterk beïnvloeden, wat soms leidt tot bevooroordeelde representaties, vooral wanneer objecten voorkomen in achtergronden die buiten de verdeling vallen. Tegelijkertijd vereisen veel beeldniveau objectgerichte taken het identificeren van relevante regio's, wat vaak context vereist. Om dit dilemma aan te pakken, stellen we een tweestaps raamwerk voor: fase 1 verwerkt de volledige afbeelding om objectonderdelen te ontdekken en taakrelevante regio's te identificeren, terwijl fase 2 gebruikmaakt van invoer-aandachtmaskering om zijn receptieve veld te beperken tot deze regio's, waardoor een gerichte analyse mogelijk wordt terwijl potentieel misleidende informatie wordt gefilterd. Beide fasen worden gezamenlijk getraind, waardoor fase 2 fase 1 kan verfijnen. Uitgebreide experimenten over diverse benchmarks tonen aan dat onze aanpak de robuustheid tegen misleidende correlaties en achtergronden buiten de verdeling aanzienlijk verbetert.
English
We introduce an attention-based method that uses learned binary attention
masks to ensure that only attended image regions influence the prediction.
Context can strongly affect object perception, sometimes leading to biased
representations, particularly when objects appear in out-of-distribution
backgrounds. At the same time, many image-level object-centric tasks require
identifying relevant regions, often requiring context. To address this
conundrum, we propose a two-stage framework: stage 1 processes the full image
to discover object parts and identify task-relevant regions, while stage 2
leverages input attention masking to restrict its receptive field to these
regions, enabling a focused analysis while filtering out potentially spurious
information. Both stages are trained jointly, allowing stage 2 to refine stage
1. Extensive experiments across diverse benchmarks demonstrate that our
approach significantly improves robustness against spurious correlations and
out-of-distribution backgrounds.