La Naissance de la Connaissance : Caractéristiques Émergentes à Travers le Temps, l’Espace et l’Échelle dans les Modèles de Langage à Grande Échelle
The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models
May 26, 2025
Auteurs: Shashata Sawmya, Micah Adler, Nir Shavit
cs.AI
Résumé
Cet article étudie l'émergence de caractéristiques catégoriques interprétables au sein des grands modèles de langage (LLMs), en analysant leur comportement à travers les points de contrôle d'entraînement (temps), les couches de transformateurs (espace) et les tailles variables des modèles (échelle). En utilisant des autoencodeurs parcimonieux pour l'interprétabilité mécaniste, nous identifions quand et où des concepts sémantiques spécifiques émergent au sein des activations neuronales. Les résultats indiquent des seuils temporels et spécifiques à l'échelle clairs pour l'émergence des caractéristiques dans plusieurs domaines. Notamment, l'analyse spatiale révèle une réactivation sémantique inattendue, avec des caractéristiques des couches précoces réapparaissant dans les couches ultérieures, remettant en question les hypothèses standard sur la dynamique représentationnelle dans les modèles de transformateurs.
English
This paper studies the emergence of interpretable categorical features within
large language models (LLMs), analyzing their behavior across training
checkpoints (time), transformer layers (space), and varying model sizes
(scale). Using sparse autoencoders for mechanistic interpretability, we
identify when and where specific semantic concepts emerge within neural
activations. Results indicate clear temporal and scale-specific thresholds for
feature emergence across multiple domains. Notably, spatial analysis reveals
unexpected semantic reactivation, with early-layer features re-emerging at
later layers, challenging standard assumptions about representational dynamics
in transformer models.Summary
AI-Generated Summary