ChatPaper.aiChatPaper

Autoencoders dispersos para la interpretación científicamente rigurosa de modelos de visión.

Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

February 10, 2025
Autores: Samuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su
cs.AI

Resumen

Para comprender verdaderamente los modelos de visión, no solo debemos interpretar sus características aprendidas, sino también validar estas interpretaciones a través de experimentos controlados. Los enfoques actuales proporcionan características interpretables sin la capacidad de probar su influencia causal, o permiten la edición del modelo sin controles interpretables. Presentamos un marco unificado que utiliza autoencoders dispersos (SAEs) para cerrar esta brecha, lo que nos permite descubrir características visuales interpretables por humanos y manipularlas con precisión para probar hipótesis sobre el comportamiento del modelo. Al aplicar nuestro método a modelos de visión de última generación, revelamos diferencias clave en las abstracciones semánticas aprendidas por modelos con diferentes objetivos de pre-entrenamiento. Luego demostramos el uso práctico de nuestro marco a través de intervenciones controladas en múltiples tareas de visión. Mostramos que los SAEs pueden identificar y manipular de manera confiable características visuales interpretables sin necesidad de volver a entrenar el modelo, lo que proporciona una herramienta poderosa para comprender y controlar el comportamiento de los modelos de visión. Proporcionamos código, demos y modelos en nuestro sitio web del proyecto: https://osu-nlp-group.github.io/SAE-V.
English
To truly understand vision models, we must not only interpret their learned features but also validate these interpretations through controlled experiments. Current approaches either provide interpretable features without the ability to test their causal influence, or enable model editing without interpretable controls. We present a unified framework using sparse autoencoders (SAEs) that bridges this gap, allowing us to discover human-interpretable visual features and precisely manipulate them to test hypotheses about model behavior. By applying our method to state-of-the-art vision models, we reveal key differences in the semantic abstractions learned by models with different pre-training objectives. We then demonstrate the practical usage of our framework through controlled interventions across multiple vision tasks. We show that SAEs can reliably identify and manipulate interpretable visual features without model re-training, providing a powerful tool for understanding and controlling vision model behavior. We provide code, demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.

Summary

AI-Generated Summary

PDF71February 12, 2025