言語モデルにおける解釈と調整の向上のために特徴フローを分析するAnalyze Feature Flow to Enhance Interpretation and Steering in Language
Models
大規模言語モデルの連続する層において、疎なオートエンコーダによって発見された特徴を体系的にマッピングする新しいアプローチを紹介します。これは、以前に層間の特徴リンクを調査した研究を拡張したものです。データフリーのコサイン類似度技術を使用することで、特定の特徴が各段階でどのように持続し、変換されるか、または最初に現れるかを追跡します。この方法により、特徴の進化の詳細なフローグラフが生成され、モデルの計算に対する微細な解釈可能性と機械的洞察が可能となります。重要なのは、これらの層間特徴マップが、モデルの振る舞いを直接操作する手段を提供し、テキスト生成において選択された特徴を増幅または抑制することで、ターゲットとなるテーマの制御を実現する方法を示している点です。これらの知見は、前向きのパスを通じて特徴がどのように発展するかを明らかにするだけでなく、大規模言語モデルの透明な操作手段を提供する新しい手段を提供する、因果関係のある、層間の解釈可能性フレームワークの有用性を強調しています。