Mappe di Attenzione Intrinsecamente Fedeli per i Transformer Visivi
Inherently Faithful Attention Maps for Vision Transformers
June 10, 2025
Autori: Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos
cs.AI
Abstract
Introduciamo un metodo basato sull'attenzione che utilizza maschere di attenzione binarie apprese per garantire che solo le regioni dell'immagine selezionate influenzino la previsione. Il contesto può influenzare fortemente la percezione degli oggetti, portando talvolta a rappresentazioni distorte, specialmente quando gli oggetti compaiono in contesti fuori distribuzione. Allo stesso tempo, molti task a livello di immagine incentrati sugli oggetti richiedono l'identificazione di regioni rilevanti, spesso necessitando del contesto. Per affrontare questo dilemma, proponiamo un framework a due stadi: il primo stadio elabora l'intera immagine per scoprire le parti degli oggetti e identificare le regioni rilevanti per il task, mentre il secondo stadio sfrutta il mascheramento dell'attenzione in ingresso per limitare il proprio campo recettivo a queste regioni, consentendo un'analisi focalizzata filtrando le informazioni potenzialmente spurie. Entrambi gli stadi sono addestrati congiuntamente, permettendo al secondo stadio di affinare il primo. Esperimenti estesi su diversi benchmark dimostrano che il nostro approccio migliora significativamente la robustezza contro correlazioni spurie e contesti fuori distribuzione.
English
We introduce an attention-based method that uses learned binary attention
masks to ensure that only attended image regions influence the prediction.
Context can strongly affect object perception, sometimes leading to biased
representations, particularly when objects appear in out-of-distribution
backgrounds. At the same time, many image-level object-centric tasks require
identifying relevant regions, often requiring context. To address this
conundrum, we propose a two-stage framework: stage 1 processes the full image
to discover object parts and identify task-relevant regions, while stage 2
leverages input attention masking to restrict its receptive field to these
regions, enabling a focused analysis while filtering out potentially spurious
information. Both stages are trained jointly, allowing stage 2 to refine stage
1. Extensive experiments across diverse benchmarks demonstrate that our
approach significantly improves robustness against spurious correlations and
out-of-distribution backgrounds.