Probabilistische Conceptuele Uitleggers: Betrouwbare Conceptuele Verklaringen voor Visuele Fundamentmodellen
Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models
June 18, 2024
Auteurs: Hengyi Wang, Shiwei Tan, Hao Wang
cs.AI
Samenvatting
Vision transformers (ViTs) zijn uitgegroeid tot een belangrijk aandachtsgebied, met name vanwege hun vermogen om gezamenlijk getraind te worden met grote taalmodellen en om te dienen als robuuste visuele basismodellen. Toch blijft de ontwikkeling van betrouwbare verklaringsmethoden voor ViTs achter, vooral in de context van post-hoc interpretaties van ViT-voorspellingen. Bestaande benaderingen voor subbeeldselectie, zoals feature-attributie en conceptuele modellen, schieten hierin tekort. Dit artikel stelt vijf desiderata voor het verklaren van ViTs voor – trouw, stabiliteit, spaarzaamheid, meerlagige structuur en parsimonie – en toont aan dat huidige methoden niet voldoen aan deze criteria in hun geheel. We introduceren een variational Bayesian verklaringsframework, genaamd ProbAbilistic Concept Explainers (PACE), dat de verdelingen van patchembeddings modelleert om betrouwbare post-hoc conceptuele verklaringen te bieden. Onze kwalitatieve analyse onthult de verdelingen van patch-niveau concepten, wat de effectiviteit van ViTs verduidelijkt door de gezamenlijke verdeling van patchembeddings en ViT-voorspellingen te modelleren. Bovendien overbruggen deze patch-niveau verklaringen de kloof tussen beeldniveau en datasetniveau verklaringen, waardoor de meerlagige structuur van PACE wordt voltooid. Door uitgebreide experimenten op zowel synthetische als real-world datasets, tonen we aan dat PACE state-of-the-art methoden overtreft in termen van de gedefinieerde desiderata.
English
Vision transformers (ViTs) have emerged as a significant area of focus,
particularly for their capacity to be jointly trained with large language
models and to serve as robust vision foundation models. Yet, the development of
trustworthy explanation methods for ViTs has lagged, particularly in the
context of post-hoc interpretations of ViT predictions. Existing sub-image
selection approaches, such as feature-attribution and conceptual models, fall
short in this regard. This paper proposes five desiderata for explaining ViTs
-- faithfulness, stability, sparsity, multi-level structure, and parsimony --
and demonstrates the inadequacy of current methods in meeting these criteria
comprehensively. We introduce a variational Bayesian explanation framework,
dubbed ProbAbilistic Concept Explainers (PACE), which models the distributions
of patch embeddings to provide trustworthy post-hoc conceptual explanations.
Our qualitative analysis reveals the distributions of patch-level concepts,
elucidating the effectiveness of ViTs by modeling the joint distribution of
patch embeddings and ViT's predictions. Moreover, these patch-level
explanations bridge the gap between image-level and dataset-level explanations,
thus completing the multi-level structure of PACE. Through extensive
experiments on both synthetic and real-world datasets, we demonstrate that PACE
surpasses state-of-the-art methods in terms of the defined desiderata.