Un Agente di Interpretabilità Automatica Multimodale

Abstract

Questo articolo descrive MAIA, un Agente Multimodale Automatico per l'Interpretabilità. MAIA è un sistema che utilizza modelli neurali per automatizzare attività di comprensione dei modelli neurali, come l'interpretazione delle caratteristiche e l'individuazione delle modalità di fallimento. Esso equipaggia un modello visione-linguaggio pre-addestrato con una serie di strumenti che supportano la sperimentazione iterativa sui sottocomponenti di altri modelli per spiegarne il comportamento. Questi includono strumenti comunemente utilizzati dai ricercatori umani nell'interpretabilità: per sintetizzare e modificare gli input, calcolare esempi di massima attivazione da dataset del mondo reale, e riassumere e descrivere i risultati sperimentali. Gli esperimenti di interpretabilità proposti da MAIA combinano questi strumenti per descrivere e spiegare il comportamento del sistema. Valutiamo le applicazioni di MAIA ai modelli di visione artificiale. In primo luogo, caratterizziamo la capacità di MAIA di descrivere caratteristiche (a livello di neurone) nelle rappresentazioni apprese delle immagini. Attraverso diversi modelli addestrati e un nuovo dataset di neuroni visivi sintetici con descrizioni ground-truth accoppiate, MAIA produce descrizioni comparabili a quelle generate da esperti sperimentatori umani. Mostriamo poi che MAIA può essere utile in due ulteriori compiti di interpretabilità: ridurre la sensibilità alle caratteristiche spurie e identificare automaticamente gli input con alta probabilità di essere classificati erroneamente.

English

This paper describes MAIA, a Multimodal Automated Interpretability Agent. MAIA is a system that uses neural models to automate neural model understanding tasks like feature interpretation and failure mode discovery. It equips a pre-trained vision-language model with a set of tools that support iterative experimentation on subcomponents of other models to explain their behavior. These include tools commonly used by human interpretability researchers: for synthesizing and editing inputs, computing maximally activating exemplars from real-world datasets, and summarizing and describing experimental results. Interpretability experiments proposed by MAIA compose these tools to describe and explain system behavior. We evaluate applications of MAIA to computer vision models. We first characterize MAIA's ability to describe (neuron-level) features in learned representations of images. Across several trained models and a novel dataset of synthetic vision neurons with paired ground-truth descriptions, MAIA produces descriptions comparable to those generated by expert human experimenters. We then show that MAIA can aid in two additional interpretability tasks: reducing sensitivity to spurious features, and automatically identifying inputs likely to be mis-classified.

Un Agente di Interpretabilità Automatica Multimodale

A Multimodal Automated Interpretability Agent

Abstract

Support