La Naissance de la Connaissance : Caractéristiques Émergentes à Travers le Temps, l’Espace et l’Échelle dans les Modèles de Langage à Grande Échelle

papers.abstract

Cet article étudie l'émergence de caractéristiques catégoriques interprétables au sein des grands modèles de langage (LLMs), en analysant leur comportement à travers les points de contrôle d'entraînement (temps), les couches de transformateurs (espace) et les tailles variables des modèles (échelle). En utilisant des autoencodeurs parcimonieux pour l'interprétabilité mécaniste, nous identifions quand et où des concepts sémantiques spécifiques émergent au sein des activations neuronales. Les résultats indiquent des seuils temporels et spécifiques à l'échelle clairs pour l'émergence des caractéristiques dans plusieurs domaines. Notamment, l'analyse spatiale révèle une réactivation sémantique inattendue, avec des caractéristiques des couches précoces réapparaissant dans les couches ultérieures, remettant en question les hypothèses standard sur la dynamique représentationnelle dans les modèles de transformateurs.

English

This paper studies the emergence of interpretable categorical features within large language models (LLMs), analyzing their behavior across training checkpoints (time), transformer layers (space), and varying model sizes (scale). Using sparse autoencoders for mechanistic interpretability, we identify when and where specific semantic concepts emerge within neural activations. Results indicate clear temporal and scale-specific thresholds for feature emergence across multiple domains. Notably, spatial analysis reveals unexpected semantic reactivation, with early-layer features re-emerging at later layers, challenging standard assumptions about representational dynamics in transformer models.

La Naissance de la Connaissance : Caractéristiques Émergentes à Travers le Temps, l’Espace et l’Échelle dans les Modèles de Langage à Grande Échelle

The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models

papers.abstract

Support