Autoencodeurs épars pour une interprétation scientifiquement rigoureuse des modèles de vision

papers.abstract

Pour comprendre véritablement les modèles de vision, il est essentiel non seulement d'interpréter leurs caractéristiques apprises, mais aussi de valider ces interprétations par le biais d'expériences contrôlées. Les approches actuelles fournissent soit des caractéristiques interprétables sans la capacité de tester leur influence causale, soit permettent la modification du modèle sans contrôles interprétables. Nous présentons un cadre unifié utilisant des autoencodeurs parcimonieux (SAEs) qui comble cette lacune, nous permettant de découvrir des caractéristiques visuelles interprétables par les humains et de les manipuler précisément pour tester des hypothèses sur le comportement du modèle. En appliquant notre méthode à des modèles de vision de pointe, nous révélons des différences clés dans les abstractions sémantiques apprises par des modèles ayant des objectifs de pré-entraînement différents. Nous démontrons ensuite l'utilisation pratique de notre cadre à travers des interventions contrôlées sur plusieurs tâches de vision. Nous montrons que les SAEs peuvent identifier et manipuler de manière fiable des caractéristiques visuelles interprétables sans ré-entraînement du modèle, offrant un outil puissant pour comprendre et contrôler le comportement des modèles de vision. Nous fournissons le code, des démonstrations et des modèles sur notre site web de projet : https://osu-nlp-group.github.io/SAE-V.

English

To truly understand vision models, we must not only interpret their learned features but also validate these interpretations through controlled experiments. Current approaches either provide interpretable features without the ability to test their causal influence, or enable model editing without interpretable controls. We present a unified framework using sparse autoencoders (SAEs) that bridges this gap, allowing us to discover human-interpretable visual features and precisely manipulate them to test hypotheses about model behavior. By applying our method to state-of-the-art vision models, we reveal key differences in the semantic abstractions learned by models with different pre-training objectives. We then demonstrate the practical usage of our framework through controlled interventions across multiple vision tasks. We show that SAEs can reliably identify and manipulate interpretable visual features without model re-training, providing a powerful tool for understanding and controlling vision model behavior. We provide code, demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.

Autoencodeurs épars pour une interprétation scientifiquement rigoureuse des modèles de vision

Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

papers.abstract

Support