ChatPaper.aiChatPaper

Вероятностные концептуальные объяснения: надежные концептуальные объяснения для моделей основ зрения

Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models

June 18, 2024
Авторы: Hengyi Wang, Shiwei Tan, Hao Wang
cs.AI

Аннотация

Трансформеры видео (ViTs) выделились как значительная область внимания, особенно благодаря их способности к совместному обучению с крупными языковыми моделями и использованию в качестве надежных моделей основы для обработки изображений. Тем не менее, разработка надежных методов объяснения для ViTs отстает, особенно в контексте пост-фактум интерпретации предсказаний ViT. Существующие подходы к выбору подизображений, такие как атрибуция признаков и концептуальные модели, не справляются с этой задачей. В данной статье предлагается пять критериев для объяснения ViTs - достоверность, стабильность, разреженность, многоуровневая структура и лаконичность - и демонстрируется недостаточность текущих методов в полном соответствии этим критериям. Мы представляем вариационную байесовскую модель объяснений, названную ProbAbilistic Concept Explainers (PACE), которая моделирует распределения встраиваний патчей для предоставления достоверных пост-фактум концептуальных объяснений. Наше качественное анализ показывает распределения концепций на уровне патчей, проясняя эффективность ViTs путем моделирования совместного распределения встраиваний патчей и предсказаний ViT. Более того, эти объяснения на уровне патчей соединяют разрыв между объяснениями на уровне изображения и набора данных, таким образом завершая многоуровневую структуру PACE. Через обширные эксперименты как на синтетических, так и на реальных наборах данных, мы демонстрируем, что PACE превосходит современные методы с точки зрения определенных критериев.
English
Vision transformers (ViTs) have emerged as a significant area of focus, particularly for their capacity to be jointly trained with large language models and to serve as robust vision foundation models. Yet, the development of trustworthy explanation methods for ViTs has lagged, particularly in the context of post-hoc interpretations of ViT predictions. Existing sub-image selection approaches, such as feature-attribution and conceptual models, fall short in this regard. This paper proposes five desiderata for explaining ViTs -- faithfulness, stability, sparsity, multi-level structure, and parsimony -- and demonstrates the inadequacy of current methods in meeting these criteria comprehensively. We introduce a variational Bayesian explanation framework, dubbed ProbAbilistic Concept Explainers (PACE), which models the distributions of patch embeddings to provide trustworthy post-hoc conceptual explanations. Our qualitative analysis reveals the distributions of patch-level concepts, elucidating the effectiveness of ViTs by modeling the joint distribution of patch embeddings and ViT's predictions. Moreover, these patch-level explanations bridge the gap between image-level and dataset-level explanations, thus completing the multi-level structure of PACE. Through extensive experiments on both synthetic and real-world datasets, we demonstrate that PACE surpasses state-of-the-art methods in terms of the defined desiderata.
PDF161December 3, 2024