Sparse Autoencoder für wissenschaftlich fundierte Interpretation von Bildmodellen
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models
February 10, 2025
Autoren: Samuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su
cs.AI
Zusammenfassung
Um Vision-Modelle wirklich zu verstehen, müssen wir nicht nur ihre erlernten Merkmale interpretieren, sondern diese Interpretationen auch durch kontrollierte Experimente validieren. Aktuelle Ansätze liefern entweder interpretierbare Merkmale ohne die Möglichkeit, ihren kausalen Einfluss zu testen, oder ermöglichen die Modellbearbeitung ohne interpretierbare Kontrollen. Wir präsentieren einen einheitlichen Rahmen unter Verwendung von dünnbesetzten Autoencodern (SAEs), der diese Lücke schließt und es uns ermöglicht, menscheninterpretierbare visuelle Merkmale zu entdecken und sie präzise zu manipulieren, um Hypothesen zum Modellverhalten zu testen. Indem wir unsere Methode auf modernste Vision-Modelle anwenden, enthüllen wir wesentliche Unterschiede in den semantischen Abstraktionen, die von Modellen mit unterschiedlichen Vortrainingszielen erlernt wurden. Anschließend demonstrieren wir die praktische Anwendung unseres Rahmens durch kontrollierte Interventionen über mehrere Vision-Aufgaben hinweg. Wir zeigen, dass SAEs interpretierbare visuelle Merkmale zuverlässig identifizieren und manipulieren können, ohne dass eine Neuschulung des Modells erforderlich ist, was ein leistungsstarkes Werkzeug zur Verständnis und Steuerung des Verhaltens von Vision-Modellen darstellt. Den Code, Demos und Modelle finden Sie auf unserer Projektwebsite: https://osu-nlp-group.github.io/SAE-V.
English
To truly understand vision models, we must not only interpret their learned
features but also validate these interpretations through controlled
experiments. Current approaches either provide interpretable features without
the ability to test their causal influence, or enable model editing without
interpretable controls. We present a unified framework using sparse
autoencoders (SAEs) that bridges this gap, allowing us to discover
human-interpretable visual features and precisely manipulate them to test
hypotheses about model behavior. By applying our method to state-of-the-art
vision models, we reveal key differences in the semantic abstractions learned
by models with different pre-training objectives. We then demonstrate the
practical usage of our framework through controlled interventions across
multiple vision tasks. We show that SAEs can reliably identify and manipulate
interpretable visual features without model re-training, providing a powerful
tool for understanding and controlling vision model behavior. We provide code,
demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.