Ripensare le Mappe di Salienza: Una Tassonomia Allineata alla Cognizione Umana e un Quadro di Valutazione per le Spiegazioni
Rethinking Saliency Maps: A Cognitive Human Aligned Taxonomy and Evaluation Framework for Explanations
November 17, 2025
Autori: Yehonatan Elisha, Seffi Cohen, Oren Barkan, Noam Koenigstein
cs.AI
Abstract
Le mappe di salienza sono ampiamente utilizzate per le spiegazioni visive nell'ambito del deep learning, ma persiste una fondamentale mancanza di consenso riguardo al loro scopo inteso e all'allineamento con le diverse query degli utenti. Questa ambiguità ostacola la valutazione efficace e l'utilità pratica dei metodi esplicativi. Affrontiamo questa lacuna introducendo la tassonomia Reference-Frame per Granularità (RFxG), un quadro concettuale principiato che organizza le spiegazioni di salienza lungo due assi essenziali:
* **Reference-Frame (Quadro di Riferimento):** Distingue tra spiegazioni puntuali ("Perché questa previsione?") e contrastive ("Perché questo e non un'alternativa?").
* **Granularità:** Spazia da interpretazioni a grana fine a livello di classe (ad es., "Perché Husky?") a interpretazioni a grana grossa a livello di gruppo (ad es., "Perché Cane?").
Utilizzando la lente RFxG, dimostriamo limitazioni critiche nelle metriche di valutazione esistenti, che privilegiano in modo schiacciante la fedeltà puntuale trascurando il ragionamento contrastivo e la granularità semantica. Per valutare sistematicamente la qualità delle spiegazioni lungo entrambe le dimensioni RFxG, proponiamo quattro nuove metriche di fedeltà. La nostra struttura di valutazione completa applica queste metrici a dieci metodi di salienza all'avanguardia, quattro architetture di modelli e tre dataset. Promuovendo un cambiamento verso una valutazione guidata dall'intento dell'utente, il nostro lavoro fornisce sia le basi concettuali che gli strumenti pratici necessari per sviluppare spiegazioni visive che non solo sono fedeli al comportamento del modello sottostante, ma sono anche significativamente allineate con la complessità della comprensione e dell'indagine umana.
English
Saliency maps are widely used for visual explanations in deep learning, but a fundamental lack of consensus persists regarding their intended purpose and alignment with diverse user queries. This ambiguity hinders the effective evaluation and practical utility of explanation methods. We address this gap by introducing the Reference-Frame times Granularity (RFxG) taxonomy, a principled conceptual framework that organizes saliency explanations along two essential axes:Reference-Frame: Distinguishing between pointwise ("Why this prediction?") and contrastive ("Why this and not an alternative?") explanations. Granularity: Ranging from fine-grained class-level (e.g., "Why Husky?") to coarse-grained group-level (e.g., "Why Dog?") interpretations. Using the RFxG lens, we demonstrate critical limitations in existing evaluation metrics, which overwhelmingly prioritize pointwise faithfulness while neglecting contrastive reasoning and semantic granularity. To systematically assess explanation quality across both RFxG dimensions, we propose four novel faithfulness metrics. Our comprehensive evaluation framework applies these metrics to ten state-of-the-art saliency methods, four model architectures, and three datasets. By advocating a shift toward user-intent-driven evaluation, our work provides both the conceptual foundation and the practical tools necessary to develop visual explanations that are not only faithful to the underlying model behavior but are also meaningfully aligned with the complexity of human understanding and inquiry.