ChatPaper.aiChatPaper

다중모드 자동 해석 가능성 에이전트

A Multimodal Automated Interpretability Agent

April 22, 2024
저자: Tamar Rott Shaham, Sarah Schwettmann, Franklin Wang, Achyuta Rajaram, Evan Hernandez, Jacob Andreas, Antonio Torralba
cs.AI

초록

본 논문은 다중모드 자동 해석 에이전트(MAIA)를 소개합니다. MAIA는 신경망 모델 이해 작업, 예를 들어 특징 해석 및 실패 모드 발견 등을 자동화하기 위해 신경망 모델을 사용하는 시스템입니다. MAIA는 사전 훈련된 시각-언어 모델에 다른 모델의 하위 구성 요소에 대한 반복적 실험을 지원하는 도구 세트를 장착하여 그들의 동작을 설명합니다. 이러한 도구는 인간 해석 연구자들이 일반적으로 사용하는 것들로, 입력 합성 및 편집, 실제 데이터셋에서 최대 활성화 예제 계산, 실험 결과 요약 및 설명 등을 포함합니다. MAIA가 제안하는 해석 실험은 이러한 도구들을 조합하여 시스템 동작을 설명하고 해석합니다. 우리는 MAIA를 컴퓨터 비전 모델에 적용하여 평가합니다. 먼저, MAIA가 학습된 이미지 표현에서 (뉴런 수준의) 특징을 설명하는 능력을 특성화합니다. 여러 훈련된 모델과 짝을 이룬 실측 설명이 포함된 합성 시각 뉴런 데이터셋을 통해, MAIA는 전문가 인간 실험자가 생성한 설명과 비슷한 수준의 설명을 생성합니다. 그런 다음, MAIA가 두 가지 추가 해석 작업에 도움을 줄 수 있음을 보여줍니다: 허위 특징에 대한 민감도를 줄이는 것과 잘못 분류될 가능성이 높은 입력을 자동으로 식별하는 것입니다.
English
This paper describes MAIA, a Multimodal Automated Interpretability Agent. MAIA is a system that uses neural models to automate neural model understanding tasks like feature interpretation and failure mode discovery. It equips a pre-trained vision-language model with a set of tools that support iterative experimentation on subcomponents of other models to explain their behavior. These include tools commonly used by human interpretability researchers: for synthesizing and editing inputs, computing maximally activating exemplars from real-world datasets, and summarizing and describing experimental results. Interpretability experiments proposed by MAIA compose these tools to describe and explain system behavior. We evaluate applications of MAIA to computer vision models. We first characterize MAIA's ability to describe (neuron-level) features in learned representations of images. Across several trained models and a novel dataset of synthetic vision neurons with paired ground-truth descriptions, MAIA produces descriptions comparable to those generated by expert human experimenters. We then show that MAIA can aid in two additional interpretability tasks: reducing sensitivity to spurious features, and automatically identifying inputs likely to be mis-classified.

Summary

AI-Generated Summary

PDF221December 15, 2024