知識の誕生:大規模言語モデルにおける時間、空間、スケールを超えた創発的特徴
The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models
May 26, 2025
著者: Shashata Sawmya, Micah Adler, Nir Shavit
cs.AI
要旨
本論文は、大規模言語モデル(LLMs)内における解釈可能なカテゴリカル特徴の出現を研究し、それらの振る舞いを訓練チェックポイント(時間)、トランスフォーマー層(空間)、およびモデルサイズの変化(スケール)にわたって分析する。メカニズム的解釈可能性のためのスパースオートエンコーダを使用し、ニューラル活性化内で特定の意味概念がいつ、どこで出現するかを特定する。結果は、複数のドメインにわたる特徴出現の明確な時間的およびスケール固有の閾値を示している。特に、空間分析は、初期層の特徴が後期層で再出現するという予想外の意味的再活性化を明らかにし、トランスフォーマーモデルにおける表現ダイナミクスに関する標準的な仮定に挑戦するものである。
English
This paper studies the emergence of interpretable categorical features within
large language models (LLMs), analyzing their behavior across training
checkpoints (time), transformer layers (space), and varying model sizes
(scale). Using sparse autoencoders for mechanistic interpretability, we
identify when and where specific semantic concepts emerge within neural
activations. Results indicate clear temporal and scale-specific thresholds for
feature emergence across multiple domains. Notably, spatial analysis reveals
unexpected semantic reactivation, with early-layer features re-emerging at
later layers, challenging standard assumptions about representational dynamics
in transformer models.Summary
AI-Generated Summary