Autoencoders Esparsos para Interpretação Cientificamente Rigorosa de Modelos de Visão

Resumo

Para verdadeiramente compreender os modelos de visão, não devemos apenas interpretar as características aprendidas, mas também validar essas interpretações por meio de experimentos controlados. As abordagens atuais ou fornecem características interpretáveis sem a capacidade de testar sua influência causal, ou permitem a edição do modelo sem controles interpretáveis. Apresentamos um framework unificado que utiliza autoencoders esparsos (SAEs) para preencher essa lacuna, permitindo-nos descobrir características visuais interpretáveis por humanos e manipulá-las com precisão para testar hipóteses sobre o comportamento do modelo. Ao aplicar nosso método a modelos de visão de última geração, revelamos diferenças fundamentais nas abstrações semânticas aprendidas por modelos com diferentes objetivos de pré-treinamento. Em seguida, demonstramos o uso prático do nosso framework por meio de intervenções controladas em múltiplas tarefas de visão. Mostramos que os SAEs podem identificar e manipular de forma confiável características visuais interpretáveis sem a necessidade de retreinar o modelo, fornecendo uma ferramenta poderosa para entender e controlar o comportamento dos modelos de visão. Disponibilizamos código, demonstrações e modelos em nosso site do projeto: https://osu-nlp-group.github.io/SAE-V.

English

To truly understand vision models, we must not only interpret their learned features but also validate these interpretations through controlled experiments. Current approaches either provide interpretable features without the ability to test their causal influence, or enable model editing without interpretable controls. We present a unified framework using sparse autoencoders (SAEs) that bridges this gap, allowing us to discover human-interpretable visual features and precisely manipulate them to test hypotheses about model behavior. By applying our method to state-of-the-art vision models, we reveal key differences in the semantic abstractions learned by models with different pre-training objectives. We then demonstrate the practical usage of our framework through controlled interventions across multiple vision tasks. We show that SAEs can reliably identify and manipulate interpretable visual features without model re-training, providing a powerful tool for understanding and controlling vision model behavior. We provide code, demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.

Autoencoders Esparsos para Interpretação Cientificamente Rigorosa de Modelos de Visão

Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

Resumo

Support