이유를 말해줘: 자기 설명 가능한 분류기로서의 시각적 기초 모델
Tell me why: Visual foundation models as self-explainable classifiers
February 26, 2025
저자: Hugues Turbé, Mina Bjelogrlic, Gianmarco Mengaldo, Christian Lovis
cs.AI
초록
시각적 기반 모델(VFMs)은 최첨단 성능으로 인해 점점 더 인기를 얻고 있습니다. 그러나 중요한 응용 분야에서는 해석 가능성이 여전히 중요합니다. 이러한 관점에서, 자기 설명 가능 모델(SEM)은 예측을 해석 가능한 개념들의 가중 합으로 분해하는 해석 가능한 분류기를 제공하는 것을 목표로 합니다. 이러한 모델들이 유망함에도 불구하고, 최근 연구들은 이러한 설명들이 종종 충실도가 부족함을 보여주었습니다. 본 연구에서는 VFMs를 새로운 프로토타입 아키텍처와 특화된 학습 목표와 결합합니다. 고정된 VFMs 위에 경량 헤드(약 1M 파라미터)만을 학습함으로써, 우리의 접근 방식(ProtoFM)은 효율적이고 해석 가능한 솔루션을 제공합니다. 평가 결과, 우리의 접근 방식은 경쟁력 있는 분류 성능을 달성하는 동시에 문헌에서 도출된 다양한 해석 가능성 지표에서 기존 모델들을 능가함을 보여줍니다. 코드는 https://github.com/hturbe/proto-fm에서 확인할 수 있습니다.
English
Visual foundation models (VFMs) have become increasingly popular due to their
state-of-the-art performance. However, interpretability remains crucial for
critical applications. In this sense, self-explainable models (SEM) aim to
provide interpretable classifiers that decompose predictions into a weighted
sum of interpretable concepts. Despite their promise, recent studies have shown
that these explanations often lack faithfulness. In this work, we combine VFMs
with a novel prototypical architecture and specialized training objectives. By
training only a lightweight head (approximately 1M parameters) on top of frozen
VFMs, our approach (ProtoFM) offers an efficient and interpretable solution.
Evaluations demonstrate that our approach achieves competitive classification
performance while outperforming existing models across a range of
interpretability metrics derived from the literature. Code is available at
https://github.com/hturbe/proto-fm.Summary
AI-Generated Summary