Разреженные автоэнкодеры для научно обоснованной интерпретации моделей зрения
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models
February 10, 2025
Авторы: Samuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su
cs.AI
Аннотация
Для полного понимания моделей зрения необходимо не только интерпретировать их выученные характеристики, но и подтверждать эти интерпретации с помощью контролируемых экспериментов. Нынешние подходы либо предоставляют интерпретируемые характеристики без возможности проверки их причинного влияния, либо позволяют редактировать модель без интерпретируемых контролов. Мы представляем унифицированную структуру, используя разреженные автокодировщики (SAE), которая заполняет этот разрыв, позволяя нам обнаружить человеко-интерпретируемые визуальные характеристики и точно их манипулировать для проверки гипотез о поведении модели. Применяя наш метод к передовым моделям зрения, мы раскрываем ключевые различия в семантических абстракциях, выученных моделями с различными целями предварительного обучения. Затем мы демонстрируем практическое использование нашей структуры через контролируемые вмешательства в рамках нескольких задач зрения. Мы показываем, что SAE могут надежно идентифицировать и манипулировать интерпретируемыми визуальными характеристиками без повторного обучения модели, предоставляя мощный инструмент для понимания и управления поведением модели зрения. Мы предоставляем код, демонстрации и модели на нашем веб-сайте проекта: https://osu-nlp-group.github.io/SAE-V.
English
To truly understand vision models, we must not only interpret their learned
features but also validate these interpretations through controlled
experiments. Current approaches either provide interpretable features without
the ability to test their causal influence, or enable model editing without
interpretable controls. We present a unified framework using sparse
autoencoders (SAEs) that bridges this gap, allowing us to discover
human-interpretable visual features and precisely manipulate them to test
hypotheses about model behavior. By applying our method to state-of-the-art
vision models, we reveal key differences in the semantic abstractions learned
by models with different pre-training objectives. We then demonstrate the
practical usage of our framework through controlled interventions across
multiple vision tasks. We show that SAEs can reliably identify and manipulate
interpretable visual features without model re-training, providing a powerful
tool for understanding and controlling vision model behavior. We provide code,
demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.Summary
AI-Generated Summary