ChatPaper.aiChatPaper

Un agent automatisé d'interprétabilité multimodale

A Multimodal Automated Interpretability Agent

April 22, 2024
papers.authors: Tamar Rott Shaham, Sarah Schwettmann, Franklin Wang, Achyuta Rajaram, Evan Hernandez, Jacob Andreas, Antonio Torralba
cs.AI

papers.abstract

Cet article présente MAIA, un Agent Multimodal Automatisé d'Interprétabilité. MAIA est un système qui utilise des modèles neuronaux pour automatiser des tâches de compréhension de modèles neuronaux, telles que l'interprétation des caractéristiques et la découverte des modes de défaillance. Il équipe un modèle vision-langage pré-entraîné d'un ensemble d'outils qui soutiennent l'expérimentation itérative sur les sous-composants d'autres modèles afin d'expliquer leur comportement. Ces outils incluent ceux couramment utilisés par les chercheurs en interprétabilité humaine : pour synthétiser et modifier des entrées, calculer des exemples d'activation maximale à partir de jeux de données réels, et résumer et décrire les résultats expérimentaux. Les expériences d'interprétabilité proposées par MAIA combinent ces outils pour décrire et expliquer le comportement du système. Nous évaluons les applications de MAIA aux modèles de vision par ordinateur. Nous caractérisons d'abord la capacité de MAIA à décrire les caractéristiques (au niveau des neurones) dans les représentations apprises des images. Sur plusieurs modèles entraînés et un nouveau jeu de données de neurones de vision synthétiques avec des descriptions de référence appariées, MAIA produit des descriptions comparables à celles générées par des expérimentateurs humains experts. Nous montrons ensuite que MAIA peut aider dans deux tâches supplémentaires d'interprétabilité : réduire la sensibilité aux caractéristiques fallacieuses, et identifier automatiquement les entrées susceptibles d'être mal classées.
English
This paper describes MAIA, a Multimodal Automated Interpretability Agent. MAIA is a system that uses neural models to automate neural model understanding tasks like feature interpretation and failure mode discovery. It equips a pre-trained vision-language model with a set of tools that support iterative experimentation on subcomponents of other models to explain their behavior. These include tools commonly used by human interpretability researchers: for synthesizing and editing inputs, computing maximally activating exemplars from real-world datasets, and summarizing and describing experimental results. Interpretability experiments proposed by MAIA compose these tools to describe and explain system behavior. We evaluate applications of MAIA to computer vision models. We first characterize MAIA's ability to describe (neuron-level) features in learned representations of images. Across several trained models and a novel dataset of synthetic vision neurons with paired ground-truth descriptions, MAIA produces descriptions comparable to those generated by expert human experimenters. We then show that MAIA can aid in two additional interpretability tasks: reducing sensitivity to spurious features, and automatically identifying inputs likely to be mis-classified.
PDF221December 15, 2024