Autoencoders Esparsos para Interpretação Cientificamente Rigorosa de Modelos de Visão
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models
February 10, 2025
Autores: Samuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su
cs.AI
Resumo
Para verdadeiramente compreender os modelos de visão, não devemos apenas interpretar as características aprendidas, mas também validar essas interpretações por meio de experimentos controlados. As abordagens atuais ou fornecem características interpretáveis sem a capacidade de testar sua influência causal, ou permitem a edição do modelo sem controles interpretáveis. Apresentamos um framework unificado que utiliza autoencoders esparsos (SAEs) para preencher essa lacuna, permitindo-nos descobrir características visuais interpretáveis por humanos e manipulá-las com precisão para testar hipóteses sobre o comportamento do modelo. Ao aplicar nosso método a modelos de visão de última geração, revelamos diferenças fundamentais nas abstrações semânticas aprendidas por modelos com diferentes objetivos de pré-treinamento. Em seguida, demonstramos o uso prático do nosso framework por meio de intervenções controladas em múltiplas tarefas de visão. Mostramos que os SAEs podem identificar e manipular de forma confiável características visuais interpretáveis sem a necessidade de retreinar o modelo, fornecendo uma ferramenta poderosa para entender e controlar o comportamento dos modelos de visão. Disponibilizamos código, demonstrações e modelos em nosso site do projeto: https://osu-nlp-group.github.io/SAE-V.
English
To truly understand vision models, we must not only interpret their learned
features but also validate these interpretations through controlled
experiments. Current approaches either provide interpretable features without
the ability to test their causal influence, or enable model editing without
interpretable controls. We present a unified framework using sparse
autoencoders (SAEs) that bridges this gap, allowing us to discover
human-interpretable visual features and precisely manipulate them to test
hypotheses about model behavior. By applying our method to state-of-the-art
vision models, we reveal key differences in the semantic abstractions learned
by models with different pre-training objectives. We then demonstrate the
practical usage of our framework through controlled interventions across
multiple vision tasks. We show that SAEs can reliably identify and manipulate
interpretable visual features without model re-training, providing a powerful
tool for understanding and controlling vision model behavior. We provide code,
demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.Summary
AI-Generated Summary