Autoencodeurs épars pour une interprétation scientifiquement rigoureuse des modèles de vision
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models
February 10, 2025
Auteurs: Samuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su
cs.AI
Résumé
Pour comprendre véritablement les modèles de vision, il est essentiel non seulement d'interpréter leurs caractéristiques apprises, mais aussi de valider ces interprétations par le biais d'expériences contrôlées. Les approches actuelles fournissent soit des caractéristiques interprétables sans la capacité de tester leur influence causale, soit permettent la modification du modèle sans contrôles interprétables. Nous présentons un cadre unifié utilisant des autoencodeurs parcimonieux (SAEs) qui comble cette lacune, nous permettant de découvrir des caractéristiques visuelles interprétables par les humains et de les manipuler précisément pour tester des hypothèses sur le comportement du modèle. En appliquant notre méthode à des modèles de vision de pointe, nous révélons des différences clés dans les abstractions sémantiques apprises par des modèles ayant des objectifs de pré-entraînement différents. Nous démontrons ensuite l'utilisation pratique de notre cadre à travers des interventions contrôlées sur plusieurs tâches de vision. Nous montrons que les SAEs peuvent identifier et manipuler de manière fiable des caractéristiques visuelles interprétables sans ré-entraînement du modèle, offrant un outil puissant pour comprendre et contrôler le comportement des modèles de vision. Nous fournissons le code, des démonstrations et des modèles sur notre site web de projet : https://osu-nlp-group.github.io/SAE-V.
English
To truly understand vision models, we must not only interpret their learned
features but also validate these interpretations through controlled
experiments. Current approaches either provide interpretable features without
the ability to test their causal influence, or enable model editing without
interpretable controls. We present a unified framework using sparse
autoencoders (SAEs) that bridges this gap, allowing us to discover
human-interpretable visual features and precisely manipulate them to test
hypotheses about model behavior. By applying our method to state-of-the-art
vision models, we reveal key differences in the semantic abstractions learned
by models with different pre-training objectives. We then demonstrate the
practical usage of our framework through controlled interventions across
multiple vision tasks. We show that SAEs can reliably identify and manipulate
interpretable visual features without model re-training, providing a powerful
tool for understanding and controlling vision model behavior. We provide code,
demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.Summary
AI-Generated Summary