Die Geburt des Wissens: Emergente Merkmale über Zeit, Raum und Skala in großen Sprachmodellen
The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models
May 26, 2025
Autoren: Shashata Sawmya, Micah Adler, Nir Shavit
cs.AI
Zusammenfassung
Diese Arbeit untersucht die Entstehung interpretierbarer kategorialer Merkmale in großen Sprachmodellen (LLMs) und analysiert deren Verhalten über Trainingszeitpunkte (Zeit), Transformer-Schichten (Raum) und unterschiedliche Modellgrößen (Skala) hinweg. Mithilfe von spärlichen Autoencodern für mechanistische Interpretierbarkeit identifizieren wir, wann und wo spezifische semantische Konzepte innerhalb neuronaler Aktivierungen entstehen. Die Ergebnisse zeigen klare zeitliche und skalenabhängige Schwellenwerte für die Entstehung von Merkmalen über mehrere Domänen hinweg. Bemerkenswerterweise offenbart die räumliche Analyse unerwartete semantische Reaktivierung, bei der Merkmale aus frühen Schichten in späteren Schichten wieder auftreten, was gängige Annahmen über die Repräsentationsdynamik in Transformer-Modellen infrage stellt.
English
This paper studies the emergence of interpretable categorical features within
large language models (LLMs), analyzing their behavior across training
checkpoints (time), transformer layers (space), and varying model sizes
(scale). Using sparse autoencoders for mechanistic interpretability, we
identify when and where specific semantic concepts emerge within neural
activations. Results indicate clear temporal and scale-specific thresholds for
feature emergence across multiple domains. Notably, spatial analysis reveals
unexpected semantic reactivation, with early-layer features re-emerging at
later layers, challenging standard assumptions about representational dynamics
in transformer models.Summary
AI-Generated Summary