マルチモーダル自動解釈可能性エージェント
A Multimodal Automated Interpretability Agent
April 22, 2024
著者: Tamar Rott Shaham, Sarah Schwettmann, Franklin Wang, Achyuta Rajaram, Evan Hernandez, Jacob Andreas, Antonio Torralba
cs.AI
要旨
本論文では、マルチモーダル自動解釈エージェントであるMAIAについて説明する。MAIAは、ニューラルモデルを用いて、特徴解釈や故障モード発見といったニューラルモデル理解タスクを自動化するシステムである。MAIAは、事前学習済みの視覚-言語モデルに、他のモデルのサブコンポーネントの動作を説明するための反復実験を支援する一連のツールを装備している。これらのツールには、人間の解釈研究者が一般的に使用するものが含まれる:入力の合成と編集、実世界のデータセットから最大活性化例を計算、実験結果の要約と記述などである。MAIAが提案する解釈実験は、これらのツールを組み合わせてシステムの動作を記述し、説明する。我々は、MAIAをコンピュータビジョンモデルに適用した評価を行う。まず、MAIAが学習済み画像表現の(ニューロンレベルの)特徴を記述する能力を特徴付ける。いくつかの学習済みモデルと、ペアになった正解記述を持つ合成視覚ニューロンの新規データセットにおいて、MAIAは専門家の人間実験者が生成する記述に匹敵する記述を生成する。次に、MAIAが2つの追加の解釈タスクを支援できることを示す:偽の特徴に対する感度を低減すること、および誤分類されそうな入力を自動的に特定することである。
English
This paper describes MAIA, a Multimodal Automated Interpretability Agent.
MAIA is a system that uses neural models to automate neural model understanding
tasks like feature interpretation and failure mode discovery. It equips a
pre-trained vision-language model with a set of tools that support iterative
experimentation on subcomponents of other models to explain their behavior.
These include tools commonly used by human interpretability researchers: for
synthesizing and editing inputs, computing maximally activating exemplars from
real-world datasets, and summarizing and describing experimental results.
Interpretability experiments proposed by MAIA compose these tools to describe
and explain system behavior. We evaluate applications of MAIA to computer
vision models. We first characterize MAIA's ability to describe (neuron-level)
features in learned representations of images. Across several trained models
and a novel dataset of synthetic vision neurons with paired ground-truth
descriptions, MAIA produces descriptions comparable to those generated by
expert human experimenters. We then show that MAIA can aid in two additional
interpretability tasks: reducing sensitivity to spurious features, and
automatically identifying inputs likely to be mis-classified.Summary
AI-Generated Summary