言語モデルにおける解釈と調整の向上のために特徴フローを分析する

要旨

大規模言語モデルの連続する層において、疎なオートエンコーダによって発見された特徴を体系的にマッピングする新しいアプローチを紹介します。これは、以前に層間の特徴リンクを調査した研究を拡張したものです。データフリーのコサイン類似度技術を使用することで、特定の特徴が各段階でどのように持続し、変換されるか、または最初に現れるかを追跡します。この方法により、特徴の進化の詳細なフローグラフが生成され、モデルの計算に対する微細な解釈可能性と機械的洞察が可能となります。重要なのは、これらの層間特徴マップが、モデルの振る舞いを直接操作する手段を提供し、テキスト生成において選択された特徴を増幅または抑制することで、ターゲットとなるテーマの制御を実現する方法を示している点です。これらの知見は、前向きのパスを通じて特徴がどのように発展するかを明らかにするだけでなく、大規模言語モデルの透明な操作手段を提供する新しい手段を提供する、因果関係のある、層間の解釈可能性フレームワークの有用性を強調しています。

English

We introduce a new approach to systematically map features discovered by sparse autoencoder across consecutive layers of large language models, extending earlier work that examined inter-layer feature links. By using a data-free cosine similarity technique, we trace how specific features persist, transform, or first appear at each stage. This method yields granular flow graphs of feature evolution, enabling fine-grained interpretability and mechanistic insights into model computations. Crucially, we demonstrate how these cross-layer feature maps facilitate direct steering of model behavior by amplifying or suppressing chosen features, achieving targeted thematic control in text generation. Together, our findings highlight the utility of a causal, cross-layer interpretability framework that not only clarifies how features develop through forward passes but also provides new means for transparent manipulation of large language models.

言語モデルにおける解釈と調整の向上のために特徴フローを分析する

Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

要旨

Support