Replanteamiento de los Mapas de Saliencia: Una Taxonomía Alineada con la Cognición Humana y un Marco de Evaluación para Explicaciones
Rethinking Saliency Maps: A Cognitive Human Aligned Taxonomy and Evaluation Framework for Explanations
November 17, 2025
Autores: Yehonatan Elisha, Seffi Cohen, Oren Barkan, Noam Koenigstein
cs.AI
Resumen
Los mapas de prominencia son ampliamente utilizados para explicaciones visuales en el aprendizaje profundo, pero persiste una falta fundamental de consenso respecto a su propósito y su alineación con las diversas consultas de los usuarios. Esta ambigüedad dificulta la evaluación efectiva y la utilidad práctica de los métodos de explicación. Abordamos esta brecha presentando la taxonomía Marco de Referencia por Granularidad (RFxG), un marco conceptual fundamentado que organiza las explicaciones de prominencia a lo largo de dos ejes esenciales:
* **Marco de Referencia:** Distingue entre explicaciones puntuales ("¿Por qué esta predicción?") y explicaciones contrastivas ("¿Por qué esto y no una alternativa?").
* **Granularidad:** Abarca desde interpretaciones de grano fino a nivel de clase (por ejemplo, "¿Por qué Husky?") hasta interpretaciones de grano grueso a nivel de grupo (por ejemplo, "¿Por qué Perro?").
Utilizando la lente RFxG, demostramos limitaciones críticas en las métricas de evaluación existentes, que priorizan abrumadoramente la fidelidad puntual mientras descuidan el razonamiento contrastivo y la granularidad semántica. Para evaluar sistemáticamente la calidad de las explicaciones en ambas dimensiones RFxG, proponemos cuatro nuevas métricas de fidelidad. Nuestro marco de evaluación integral aplica estas métricas a diez métodos de prominencia de vanguardia, cuatro arquitecturas de modelo y tres conjuntos de datos. Al abogar por un cambio hacia una evaluación impulsada por la intención del usuario, nuestro trabajo proporciona tanto la base conceptual como las herramientas prácticas necesarias para desarrollar explicaciones visuales que no solo son fieles al comportamiento del modelo subyacente, sino que también están alineadas significativamente con la complejidad del entendimiento y la indagación humana.
English
Saliency maps are widely used for visual explanations in deep learning, but a fundamental lack of consensus persists regarding their intended purpose and alignment with diverse user queries. This ambiguity hinders the effective evaluation and practical utility of explanation methods. We address this gap by introducing the Reference-Frame times Granularity (RFxG) taxonomy, a principled conceptual framework that organizes saliency explanations along two essential axes:Reference-Frame: Distinguishing between pointwise ("Why this prediction?") and contrastive ("Why this and not an alternative?") explanations. Granularity: Ranging from fine-grained class-level (e.g., "Why Husky?") to coarse-grained group-level (e.g., "Why Dog?") interpretations. Using the RFxG lens, we demonstrate critical limitations in existing evaluation metrics, which overwhelmingly prioritize pointwise faithfulness while neglecting contrastive reasoning and semantic granularity. To systematically assess explanation quality across both RFxG dimensions, we propose four novel faithfulness metrics. Our comprehensive evaluation framework applies these metrics to ten state-of-the-art saliency methods, four model architectures, and three datasets. By advocating a shift toward user-intent-driven evaluation, our work provides both the conceptual foundation and the practical tools necessary to develop visual explanations that are not only faithful to the underlying model behavior but are also meaningfully aligned with the complexity of human understanding and inquiry.