Mapas de Atenção Intrinsecamente Fiéis para Transformadores Visuais
Inherently Faithful Attention Maps for Vision Transformers
June 10, 2025
Autores: Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos
cs.AI
Resumo
Apresentamos um método baseado em atenção que utiliza máscaras de atenção binárias aprendidas para garantir que apenas as regiões da imagem atendidas influenciem a predição. O contexto pode afetar fortemente a percepção de objetos, às vezes levando a representações tendenciosas, especialmente quando os objetos aparecem em fundos fora da distribuição. Ao mesmo tempo, muitas tarefas centradas em objetos no nível da imagem exigem a identificação de regiões relevantes, frequentemente dependendo do contexto. Para abordar esse dilema, propomos uma estrutura em duas etapas: a etapa 1 processa a imagem completa para descobrir partes do objeto e identificar regiões relevantes para a tarefa, enquanto a etapa 2 aproveita o mascaramento de atenção na entrada para restringir seu campo receptivo a essas regiões, permitindo uma análise focada enquanto filtra informações potencialmente espúrias. Ambas as etapas são treinadas em conjunto, permitindo que a etapa 2 refine a etapa 1. Experimentos extensos em diversos benchmarks demonstram que nossa abordagem melhora significativamente a robustez contra correlações espúrias e fundos fora da distribuição.
English
We introduce an attention-based method that uses learned binary attention
masks to ensure that only attended image regions influence the prediction.
Context can strongly affect object perception, sometimes leading to biased
representations, particularly when objects appear in out-of-distribution
backgrounds. At the same time, many image-level object-centric tasks require
identifying relevant regions, often requiring context. To address this
conundrum, we propose a two-stage framework: stage 1 processes the full image
to discover object parts and identify task-relevant regions, while stage 2
leverages input attention masking to restrict its receptive field to these
regions, enabling a focused analysis while filtering out potentially spurious
information. Both stages are trained jointly, allowing stage 2 to refine stage
1. Extensive experiments across diverse benchmarks demonstrate that our
approach significantly improves robustness against spurious correlations and
out-of-distribution backgrounds.