ChatPaper.aiChatPaper

확률적 개념 설명자: 비전 기반 모델을 위한 신뢰할 수 있는 개념적 설명

Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models

June 18, 2024
저자: Hengyi Wang, Shiwei Tan, Hao Wang
cs.AI

초록

비전 트랜스포머(ViTs)는 대규모 언어 모델과의 공동 학습 능력과 견고한 비전 기반 모델로서의 역할로 인해 중요한 연구 분야로 부상했습니다. 그러나 ViT 예측에 대한 사후 해석(post-hoc interpretation)을 위한 신뢰할 수 있는 설명 방법의 개발은 상대적으로 뒤처져 있습니다. 기존의 부분 이미지 선택 접근법, 예를 들어 특징 귀속(feature-attribution) 및 개념 모델(conceptual models)은 이러한 측면에서 부족함을 보입니다. 본 논문은 ViT를 설명하기 위한 다섯 가지 요구 사항 -- 충실성(faithfulness), 안정성(stability), 희소성(sparsity), 다중 수준 구조(multi-level structure), 간결성(parsimony) -- 을 제안하고, 현재의 방법들이 이러한 기준을 포괄적으로 충족시키지 못함을 보여줍니다. 우리는 패치 임베딩의 분포를 모델링하여 신뢰할 수 있는 사후 개념적 설명을 제공하는 변분 베이지안 설명 프레임워크인 ProbAbilistic Concept Explainers (PACE)를 소개합니다. 우리의 정성적 분석은 패치 수준 개념의 분포를 밝히고, 패치 임베딩과 ViT의 예측의 결합 분포를 모델링함으로써 ViT의 효과성을 설명합니다. 더욱이, 이러한 패치 수준의 설명은 이미지 수준과 데이터셋 수준의 설명 간의 간극을 메우며, PACE의 다중 수준 구조를 완성합니다. 합성 데이터셋과 실제 데이터셋에 대한 광범위한 실험을 통해, PACE가 정의된 요구 사항 측면에서 최신 방법들을 능가함을 입증합니다.
English
Vision transformers (ViTs) have emerged as a significant area of focus, particularly for their capacity to be jointly trained with large language models and to serve as robust vision foundation models. Yet, the development of trustworthy explanation methods for ViTs has lagged, particularly in the context of post-hoc interpretations of ViT predictions. Existing sub-image selection approaches, such as feature-attribution and conceptual models, fall short in this regard. This paper proposes five desiderata for explaining ViTs -- faithfulness, stability, sparsity, multi-level structure, and parsimony -- and demonstrates the inadequacy of current methods in meeting these criteria comprehensively. We introduce a variational Bayesian explanation framework, dubbed ProbAbilistic Concept Explainers (PACE), which models the distributions of patch embeddings to provide trustworthy post-hoc conceptual explanations. Our qualitative analysis reveals the distributions of patch-level concepts, elucidating the effectiveness of ViTs by modeling the joint distribution of patch embeddings and ViT's predictions. Moreover, these patch-level explanations bridge the gap between image-level and dataset-level explanations, thus completing the multi-level structure of PACE. Through extensive experiments on both synthetic and real-world datasets, we demonstrate that PACE surpasses state-of-the-art methods in terms of the defined desiderata.

Summary

AI-Generated Summary

PDF161December 3, 2024