Mapas de Atenção Intrinsecamente Fiéis para Transformadores Visuais

Resumo

Apresentamos um método baseado em atenção que utiliza máscaras de atenção binárias aprendidas para garantir que apenas as regiões da imagem atendidas influenciem a predição. O contexto pode afetar fortemente a percepção de objetos, às vezes levando a representações tendenciosas, especialmente quando os objetos aparecem em fundos fora da distribuição. Ao mesmo tempo, muitas tarefas centradas em objetos no nível da imagem exigem a identificação de regiões relevantes, frequentemente dependendo do contexto. Para abordar esse dilema, propomos uma estrutura em duas etapas: a etapa 1 processa a imagem completa para descobrir partes do objeto e identificar regiões relevantes para a tarefa, enquanto a etapa 2 aproveita o mascaramento de atenção na entrada para restringir seu campo receptivo a essas regiões, permitindo uma análise focada enquanto filtra informações potencialmente espúrias. Ambas as etapas são treinadas em conjunto, permitindo que a etapa 2 refine a etapa 1. Experimentos extensos em diversos benchmarks demonstram que nossa abordagem melhora significativamente a robustez contra correlações espúrias e fundos fora da distribuição.

English

We introduce an attention-based method that uses learned binary attention masks to ensure that only attended image regions influence the prediction. Context can strongly affect object perception, sometimes leading to biased representations, particularly when objects appear in out-of-distribution backgrounds. At the same time, many image-level object-centric tasks require identifying relevant regions, often requiring context. To address this conundrum, we propose a two-stage framework: stage 1 processes the full image to discover object parts and identify task-relevant regions, while stage 2 leverages input attention masking to restrict its receptive field to these regions, enabling a focused analysis while filtering out potentially spurious information. Both stages are trained jointly, allowing stage 2 to refine stage 1. Extensive experiments across diverse benchmarks demonstrate that our approach significantly improves robustness against spurious correlations and out-of-distribution backgrounds.

Mapas de Atenção Intrinsecamente Fiéis para Transformadores Visuais

Inherently Faithful Attention Maps for Vision Transformers

Resumo

Support