言語モデルにおける解釈と調整の向上のために特徴フローを分析する
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
February 5, 2025
著者: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI
要旨
大規模言語モデルの連続する層において、疎なオートエンコーダによって発見された特徴を体系的にマッピングする新しいアプローチを紹介します。これは、以前に層間の特徴リンクを調査した研究を拡張したものです。データフリーのコサイン類似度技術を使用することで、特定の特徴が各段階でどのように持続し、変換されるか、または最初に現れるかを追跡します。この方法により、特徴の進化の詳細なフローグラフが生成され、モデルの計算に対する微細な解釈可能性と機械的洞察が可能となります。重要なのは、これらの層間特徴マップが、モデルの振る舞いを直接操作する手段を提供し、テキスト生成において選択された特徴を増幅または抑制することで、ターゲットとなるテーマの制御を実現する方法を示している点です。これらの知見は、前向きのパスを通じて特徴がどのように発展するかを明らかにするだけでなく、大規模言語モデルの透明な操作手段を提供する新しい手段を提供する、因果関係のある、層間の解釈可能性フレームワークの有用性を強調しています。
English
We introduce a new approach to systematically map features discovered by
sparse autoencoder across consecutive layers of large language models,
extending earlier work that examined inter-layer feature links. By using a
data-free cosine similarity technique, we trace how specific features persist,
transform, or first appear at each stage. This method yields granular flow
graphs of feature evolution, enabling fine-grained interpretability and
mechanistic insights into model computations. Crucially, we demonstrate how
these cross-layer feature maps facilitate direct steering of model behavior by
amplifying or suppressing chosen features, achieving targeted thematic control
in text generation. Together, our findings highlight the utility of a causal,
cross-layer interpretability framework that not only clarifies how features
develop through forward passes but also provides new means for transparent
manipulation of large language models.Summary
AI-Generated Summary