Schaarse Auto-encoders voor Wetenschappelijk Rigoureuze Interpretatie van Visie Modellen
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models
February 10, 2025
Auteurs: Samuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su
cs.AI
Samenvatting
Om visiemodellen echt te begrijpen, moeten we niet alleen hun geleerde kenmerken interpreteren, maar ook deze interpretaties valideren via gecontroleerde experimenten. Huidige benaderingen bieden ofwel interpreteerbare kenmerken zonder de mogelijkheid om hun causale invloed te testen, of stellen modelbewerking in staat zonder interpreteerbare controles. We presenteren een verenigd kader met behulp van schaarse auto-encoders (SAE's) die deze kloof overbrugt, waardoor we menselijk interpreteerbare visuele kenmerken kunnen ontdekken en deze nauwkeurig kunnen manipuleren om hypothesen over het modelgedrag te testen. Door onze methode toe te passen op toonaangevende visiemodellen, onthullen we belangrijke verschillen in de semantische abstracties die worden geleerd door modellen met verschillende voorafgaande trainingsdoelstellingen. Vervolgens demonstreren we het praktische gebruik van ons kader door gecontroleerde interventies over meerdere visietaken. We tonen aan dat SAE's betrouwbaar interpreteerbare visuele kenmerken kunnen identificeren en manipuleren zonder modelhertraining, waardoor een krachtig instrument wordt geboden voor het begrijpen en controleren van het gedrag van visiemodellen. We bieden code, demo's en modellen op onze projectwebsite: https://osu-nlp-group.github.io/SAE-V.
English
To truly understand vision models, we must not only interpret their learned
features but also validate these interpretations through controlled
experiments. Current approaches either provide interpretable features without
the ability to test their causal influence, or enable model editing without
interpretable controls. We present a unified framework using sparse
autoencoders (SAEs) that bridges this gap, allowing us to discover
human-interpretable visual features and precisely manipulate them to test
hypotheses about model behavior. By applying our method to state-of-the-art
vision models, we reveal key differences in the semantic abstractions learned
by models with different pre-training objectives. We then demonstrate the
practical usage of our framework through controlled interventions across
multiple vision tasks. We show that SAEs can reliably identify and manipulate
interpretable visual features without model re-training, providing a powerful
tool for understanding and controlling vision model behavior. We provide code,
demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.