Repensando os Mapas de Saliência: Uma Taxonomia Alinhada à Cognição Humana e um Quadro de Avaliação para Explicações

Resumo

Os mapas de saliência são amplamente utilizados para explicações visuais em aprendizado profundo, mas persiste uma falta fundamental de consenso sobre seu propósito pretendido e alinhamento com as diversas consultas dos usuários. Essa ambiguidade dificulta a avaliação eficaz e a utilidade prática dos métodos de explicação. Abordamos essa lacuna introduzindo a taxonomia Referência-Enquadramento versus Granularidade (RFxG), uma estrutura conceitual fundamentada que organiza as explicações de saliência ao longo de dois eixos essenciais: **Referência-Enquadramento:** Distingue entre explicações pontuais ("Por que esta previsão?") e contrastivas ("Por que esta e não uma alternativa?"). **Granularidade:** Variando de interpretações de nível de classe de granularidade fina (ex.: "Por que Husky?") até interpretações de nível de grupo de granularidade grossa (ex.: "Por que Cachorro?"). Através da lente RFxG, demonstramos limitações críticas nas métricas de avaliação existentes, que priorizam massivamente a fidelidade pontual enquanto negligenciam o raciocínio contrastivo e a granularidade semântica. Para avaliar sistematicamente a qualidade da explicação em ambas as dimensões da RFxG, propomos quatro novas métricas de fidelidade. Nossa estrutura de avaliação abrangente aplica essas métricas a dez métodos de saliência state-of-the-art, quatro arquiteturas de modelo e três conjuntos de dados. Ao defender uma mudança em direção a uma avaliação orientada pela intenção do usuário, nosso trabalho fornece tanto a base conceitual quanto as ferramentas práticas necessárias para desenvolver explicações visuais que não são apenas fiéis ao comportamento do modelo subjacente, mas também estão significativamente alinhadas com a complexidade do entendimento e da investigação humana.

English

Saliency maps are widely used for visual explanations in deep learning, but a fundamental lack of consensus persists regarding their intended purpose and alignment with diverse user queries. This ambiguity hinders the effective evaluation and practical utility of explanation methods. We address this gap by introducing the Reference-Frame times Granularity (RFxG) taxonomy, a principled conceptual framework that organizes saliency explanations along two essential axes:Reference-Frame: Distinguishing between pointwise ("Why this prediction?") and contrastive ("Why this and not an alternative?") explanations. Granularity: Ranging from fine-grained class-level (e.g., "Why Husky?") to coarse-grained group-level (e.g., "Why Dog?") interpretations. Using the RFxG lens, we demonstrate critical limitations in existing evaluation metrics, which overwhelmingly prioritize pointwise faithfulness while neglecting contrastive reasoning and semantic granularity. To systematically assess explanation quality across both RFxG dimensions, we propose four novel faithfulness metrics. Our comprehensive evaluation framework applies these metrics to ten state-of-the-art saliency methods, four model architectures, and three datasets. By advocating a shift toward user-intent-driven evaluation, our work provides both the conceptual foundation and the practical tools necessary to develop visual explanations that are not only faithful to the underlying model behavior but are also meaningfully aligned with the complexity of human understanding and inquiry.

Repensando os Mapas de Saliência: Uma Taxonomia Alinhada à Cognição Humana e um Quadro de Avaliação para Explicações

Rethinking Saliency Maps: A Cognitive Human Aligned Taxonomy and Evaluation Framework for Explanations

Resumo

Support