ChatPaper.aiChatPaper

Autoencoder sparsi per un'interpretazione scientificamente rigorosa dei modelli di visione

Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

February 10, 2025
Autori: Samuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su
cs.AI

Abstract

Per comprendere veramente i modelli di visione, non dobbiamo soltanto interpretare le loro caratteristiche apprese, ma anche convalidare tali interpretazioni attraverso esperimenti controllati. Gli approcci attuali forniscono o caratteristiche interpretabili senza la capacità di testarne l'influenza causale, oppure consentono la modifica del modello senza controlli interpretabili. Presentiamo un framework unificato che utilizza autoencoder sparsi (SAE) per colmare questa lacuna, consentendoci di scoprire caratteristiche visive interpretabili dall'uomo e manipolarle con precisione per testare ipotesi sul comportamento del modello. Applicando il nostro metodo ai modelli di visione all'avanguardia, riveliamo differenze chiave nelle astrazioni semantiche apprese da modelli con diversi obiettivi di pre-training. Dimostriamo quindi l'utilizzo pratico del nostro framework attraverso interventi controllati su più compiti di visione. Mostrando che gli SAE possono identificare e manipolare in modo affidabile caratteristiche visive interpretabili senza la necessità di riformare il modello, fornendo uno strumento potente per comprendere e controllare il comportamento del modello di visione. Forniamo codice, dimostrazioni e modelli sul nostro sito web del progetto: https://osu-nlp-group.github.io/SAE-V.
English
To truly understand vision models, we must not only interpret their learned features but also validate these interpretations through controlled experiments. Current approaches either provide interpretable features without the ability to test their causal influence, or enable model editing without interpretable controls. We present a unified framework using sparse autoencoders (SAEs) that bridges this gap, allowing us to discover human-interpretable visual features and precisely manipulate them to test hypotheses about model behavior. By applying our method to state-of-the-art vision models, we reveal key differences in the semantic abstractions learned by models with different pre-training objectives. We then demonstrate the practical usage of our framework through controlled interventions across multiple vision tasks. We show that SAEs can reliably identify and manipulate interpretable visual features without model re-training, providing a powerful tool for understanding and controlling vision model behavior. We provide code, demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.

Summary

AI-Generated Summary

PDF71February 12, 2025