ChatPaper.aiChatPaper

De Geboorte van Kennis: Emergente Kenmerken over Tijd, Ruimte en Schaal in Grote Taalmodellen

The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models

May 26, 2025
Auteurs: Shashata Sawmya, Micah Adler, Nir Shavit
cs.AI

Samenvatting

Dit artikel onderzoekt het ontstaan van interpreteerbare categorische kenmerken binnen grote taalmodellen (LLM's), waarbij hun gedrag wordt geanalyseerd over trainingscheckpoints (tijd), transformer-lagen (ruimte) en verschillende modelgroottes (schaal). Door gebruik te maken van sparse autoencoders voor mechanistische interpreteerbaarheid, identificeren we wanneer en waar specifieke semantische concepten ontstaan binnen neurale activaties. De resultaten tonen duidelijke temporele en schaalspecifieke drempels voor het ontstaan van kenmerken in meerdere domeinen. Opvallend is dat ruimtelijke analyse onverwachte semantische heractivatie onthult, waarbij kenmerken uit vroege lagen opnieuw opduiken in latere lagen, wat standaardaannames over representatiedynamiek in transformer-modellen uitdaagt.
English
This paper studies the emergence of interpretable categorical features within large language models (LLMs), analyzing their behavior across training checkpoints (time), transformer layers (space), and varying model sizes (scale). Using sparse autoencoders for mechanistic interpretability, we identify when and where specific semantic concepts emerge within neural activations. Results indicate clear temporal and scale-specific thresholds for feature emergence across multiple domains. Notably, spatial analysis reveals unexpected semantic reactivation, with early-layer features re-emerging at later layers, challenging standard assumptions about representational dynamics in transformer models.
PDF12May 27, 2025