疎なオートエンコーダーを使用して、ステアリングベクトルを分解および解釈することは可能ですか?
Can sparse autoencoders be used to decompose and interpret steering vectors?
November 13, 2024
著者: Harry Mayne, Yushi Yang, Adam Mahdi
cs.AI
要旨
ステアリングベクトルは、大規模言語モデルの振る舞いを制御する有望なアプローチです。しかし、その基本的なメカニズムは依然として理解が不十分です。疎なオートエンコーダ(SAE)はステアリングベクトルを解釈するための潜在的な手法を提供するかもしれませんが、最近の研究結果によると、SAEによって再構築されたベクトルはしばしば元のベクトルのステアリング特性を欠いています。本論文では、ステアリングベクトルに直接SAEを適用することが誤解を招く分解をもたらす理由を調査し、次の2つの理由を特定しました:(1)SAEが設計された入力分布の外にステアリングベクトルがあること、および(2)ステアリングベクトルが特徴方向に意味のある負の射影を持つこと、これはSAEが収容するように設計されていないことです。これらの制限は、ステアリングベクトルを解釈するためにSAEを直接使用することを妨げています。
English
Steering vectors are a promising approach to control the behaviour of large
language models. However, their underlying mechanisms remain poorly understood.
While sparse autoencoders (SAEs) may offer a potential method to interpret
steering vectors, recent findings show that SAE-reconstructed vectors often
lack the steering properties of the original vectors. This paper investigates
why directly applying SAEs to steering vectors yields misleading
decompositions, identifying two reasons: (1) steering vectors fall outside the
input distribution for which SAEs are designed, and (2) steering vectors can
have meaningful negative projections in feature directions, which SAEs are not
designed to accommodate. These limitations hinder the direct use of SAEs for
interpreting steering vectors.Summary
AI-Generated Summary