ChatPaper.aiChatPaper

Mappe di Attenzione Intrinsecamente Fedeli per i Transformer Visivi

Inherently Faithful Attention Maps for Vision Transformers

June 10, 2025
Autori: Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos
cs.AI

Abstract

Introduciamo un metodo basato sull'attenzione che utilizza maschere di attenzione binarie apprese per garantire che solo le regioni dell'immagine selezionate influenzino la previsione. Il contesto può influenzare fortemente la percezione degli oggetti, portando talvolta a rappresentazioni distorte, specialmente quando gli oggetti compaiono in contesti fuori distribuzione. Allo stesso tempo, molti task a livello di immagine incentrati sugli oggetti richiedono l'identificazione di regioni rilevanti, spesso necessitando del contesto. Per affrontare questo dilemma, proponiamo un framework a due stadi: il primo stadio elabora l'intera immagine per scoprire le parti degli oggetti e identificare le regioni rilevanti per il task, mentre il secondo stadio sfrutta il mascheramento dell'attenzione in ingresso per limitare il proprio campo recettivo a queste regioni, consentendo un'analisi focalizzata filtrando le informazioni potenzialmente spurie. Entrambi gli stadi sono addestrati congiuntamente, permettendo al secondo stadio di affinare il primo. Esperimenti estesi su diversi benchmark dimostrano che il nostro approccio migliora significativamente la robustezza contro correlazioni spurie e contesti fuori distribuzione.
English
We introduce an attention-based method that uses learned binary attention masks to ensure that only attended image regions influence the prediction. Context can strongly affect object perception, sometimes leading to biased representations, particularly when objects appear in out-of-distribution backgrounds. At the same time, many image-level object-centric tasks require identifying relevant regions, often requiring context. To address this conundrum, we propose a two-stage framework: stage 1 processes the full image to discover object parts and identify task-relevant regions, while stage 2 leverages input attention masking to restrict its receptive field to these regions, enabling a focused analysis while filtering out potentially spurious information. Both stages are trained jointly, allowing stage 2 to refine stage 1. Extensive experiments across diverse benchmarks demonstrate that our approach significantly improves robustness against spurious correlations and out-of-distribution backgrounds.
PDF42June 16, 2025