Van nature betrouwbare aandachtkaarten voor Vision Transformers

Samenvatting

We introduceren een op aandacht gebaseerde methode die gebruikmaakt van geleerde binaire aandachtmaskers om ervoor te zorgen dat alleen de aandachtgebieden in de afbeelding de voorspelling beïnvloeden. Context kan de objectwaarneming sterk beïnvloeden, wat soms leidt tot bevooroordeelde representaties, vooral wanneer objecten voorkomen in achtergronden die buiten de verdeling vallen. Tegelijkertijd vereisen veel beeldniveau objectgerichte taken het identificeren van relevante regio's, wat vaak context vereist. Om dit dilemma aan te pakken, stellen we een tweestaps raamwerk voor: fase 1 verwerkt de volledige afbeelding om objectonderdelen te ontdekken en taakrelevante regio's te identificeren, terwijl fase 2 gebruikmaakt van invoer-aandachtmaskering om zijn receptieve veld te beperken tot deze regio's, waardoor een gerichte analyse mogelijk wordt terwijl potentieel misleidende informatie wordt gefilterd. Beide fasen worden gezamenlijk getraind, waardoor fase 2 fase 1 kan verfijnen. Uitgebreide experimenten over diverse benchmarks tonen aan dat onze aanpak de robuustheid tegen misleidende correlaties en achtergronden buiten de verdeling aanzienlijk verbetert.

English

We introduce an attention-based method that uses learned binary attention masks to ensure that only attended image regions influence the prediction. Context can strongly affect object perception, sometimes leading to biased representations, particularly when objects appear in out-of-distribution backgrounds. At the same time, many image-level object-centric tasks require identifying relevant regions, often requiring context. To address this conundrum, we propose a two-stage framework: stage 1 processes the full image to discover object parts and identify task-relevant regions, while stage 2 leverages input attention masking to restrict its receptive field to these regions, enabling a focused analysis while filtering out potentially spurious information. Both stages are trained jointly, allowing stage 2 to refine stage 1. Extensive experiments across diverse benchmarks demonstrate that our approach significantly improves robustness against spurious correlations and out-of-distribution backgrounds.

Van nature betrouwbare aandachtkaarten voor Vision Transformers

Inherently Faithful Attention Maps for Vision Transformers

Samenvatting

Support