희소 오토인코더가 비전-언어 모델에서 단의적 특성을 학습한다
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models
April 3, 2025
저자: Mateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata
cs.AI
초록
스파스 오토인코더(SAE)는 최근 대규모 언어 모델(LLM)의 해석 가능성과 조정 가능성을 향상시키는 것으로 입증되었습니다. 본 연구에서는 SAE의 적용 범위를 CLIP과 같은 비전-언어 모델(VLM)로 확장하고, 비전 표현에서 단일 의미성을 평가하기 위한 포괄적인 프레임워크를 소개합니다. 실험 결과, VLM에 대해 학습된 SAE는 개별 뉴런의 단일 의미성을 크게 향상시키는 동시에 전문가가 정의한 구조(예: iNaturalist 분류 체계)와 잘 부합하는 계층적 표현을 보여주었습니다. 특히, CLIP 비전 인코더에 SAE를 적용하여 개입하면, 기본 모델을 수정하지 않고도 다중모달 LLM(예: LLaVA)의 출력을 직접 조정할 수 있음을 입증했습니다. 이러한 연구 결과는 SAE가 VLM의 해석 가능성과 제어력을 모두 강화하는 비지도 접근법으로서의 실용성과 효용성을 강조합니다.
English
Sparse Autoencoders (SAEs) have recently been shown to enhance
interpretability and steerability in Large Language Models (LLMs). In this
work, we extend the application of SAEs to Vision-Language Models (VLMs), such
as CLIP, and introduce a comprehensive framework for evaluating monosemanticity
in vision representations. Our experimental results reveal that SAEs trained on
VLMs significantly enhance the monosemanticity of individual neurons while also
exhibiting hierarchical representations that align well with expert-defined
structures (e.g., iNaturalist taxonomy). Most notably, we demonstrate that
applying SAEs to intervene on a CLIP vision encoder, directly steer output from
multimodal LLMs (e.g., LLaVA) without any modifications to the underlying
model. These findings emphasize the practicality and efficacy of SAEs as an
unsupervised approach for enhancing both the interpretability and control of
VLMs.Summary
AI-Generated Summary