Opnieuw nadenken over Saliency Maps: Een Cognitief Mensgericht Taxonomie- en Evaluatiekader voor Verklaringen
Rethinking Saliency Maps: A Cognitive Human Aligned Taxonomy and Evaluation Framework for Explanations
November 17, 2025
Auteurs: Yehonatan Elisha, Seffi Cohen, Oren Barkan, Noam Koenigstein
cs.AI
Samenvatting
Salientiekaarten worden veel gebruikt voor visuele uitleg bij deep learning, maar er bestaat een fundamenteel gebrek aan consensus over hun beoogde doel en afstemming op uiteenlopende gebruikersvragen. Deze dubbelzinnigheid belemmert een effectieve evaluatie en de praktische bruikbaarheid van verklaringsmethoden. Wij dichten deze kloof door de Referentiekader maal Granulariteit (RFxG) taxonomie te introduceren, een principieel conceptueel kader dat salientieverklaringen ordent langs twee essentiële assen:
* **Referentiekader:** Onderscheidt zich tussen puntgewijze ("Waarom deze voorspelling?") en contrastieve ("Waarom dit en niet een alternatief?") verklaringen.
* **Granulariteit:** Loopt van fijnmazige, klasse-specifieke (bijv. "Waarom Husky?") tot grofmazige, groepsspecifieke (bijv. "Waarom Hond?") interpretaties.
Door de RFxG-bril demonstreren we kritieke beperkingen in bestaande evaluatiemetrics, die overweldigend prioriteit geven aan puntgewijze trouw (faithfulness), terwijl contrastief redeneren en semantische granulariteit worden verwaarloosd. Om de kwaliteit van verklaringen systematisch te beoordelen langs beide RFxG-dimensies, stellen we vier nieuwe trouwmetrics voor. Ons uitgebreide evaluatiekader past deze metrics toe op tien state-of-the-art salientiemethoden, vier modelarchitecturen en drie datasets. Door te pleiten voor een verschuiving naar gebruikersintentie-gedreven evaluatie, biedt ons werk zowel de conceptuele basis als de praktische instrumenten die nodig zijn om visuele verklaringen te ontwikkelen die niet alleen trouw zijn aan het onderliggende modelgedrag, maar ook zinvol zijn afgestemd op de complexiteit van het menselijk begrip en de vraagstelling.
English
Saliency maps are widely used for visual explanations in deep learning, but a fundamental lack of consensus persists regarding their intended purpose and alignment with diverse user queries. This ambiguity hinders the effective evaluation and practical utility of explanation methods. We address this gap by introducing the Reference-Frame times Granularity (RFxG) taxonomy, a principled conceptual framework that organizes saliency explanations along two essential axes:Reference-Frame: Distinguishing between pointwise ("Why this prediction?") and contrastive ("Why this and not an alternative?") explanations. Granularity: Ranging from fine-grained class-level (e.g., "Why Husky?") to coarse-grained group-level (e.g., "Why Dog?") interpretations. Using the RFxG lens, we demonstrate critical limitations in existing evaluation metrics, which overwhelmingly prioritize pointwise faithfulness while neglecting contrastive reasoning and semantic granularity. To systematically assess explanation quality across both RFxG dimensions, we propose four novel faithfulness metrics. Our comprehensive evaluation framework applies these metrics to ten state-of-the-art saliency methods, four model architectures, and three datasets. By advocating a shift toward user-intent-driven evaluation, our work provides both the conceptual foundation and the practical tools necessary to develop visual explanations that are not only faithful to the underlying model behavior but are also meaningfully aligned with the complexity of human understanding and inquiry.