ChatPaper.aiChatPaper

La Nascita della Conoscenza: Caratteristiche Emergenti nel Tempo, nello Spazio e nella Scala nei Modelli Linguistici di Grandi Dimensioni

The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models

May 26, 2025
Autori: Shashata Sawmya, Micah Adler, Nir Shavit
cs.AI

Abstract

Questo studio esamina l'emergere di caratteristiche categoriche interpretabili all'interno di grandi modelli linguistici (LLM), analizzandone il comportamento attraverso checkpoint di addestramento (tempo), strati del trasformatore (spazio) e dimensioni variabili del modello (scala). Utilizzando autoencoder sparsi per l'interpretabilità meccanicistica, identifichiamo quando e dove emergono specifici concetti semantici all'interno delle attivazioni neurali. I risultati indicano soglie temporali e specifiche della scala per l'emergere delle caratteristiche in più domini. In particolare, l'analisi spaziale rivela una riattivazione semantica inaspettata, con caratteristiche degli strati iniziali che riemergono negli strati successivi, sfidando le ipotesi standard sulla dinamica rappresentativa nei modelli a trasformatore.
English
This paper studies the emergence of interpretable categorical features within large language models (LLMs), analyzing their behavior across training checkpoints (time), transformer layers (space), and varying model sizes (scale). Using sparse autoencoders for mechanistic interpretability, we identify when and where specific semantic concepts emerge within neural activations. Results indicate clear temporal and scale-specific thresholds for feature emergence across multiple domains. Notably, spatial analysis reveals unexpected semantic reactivation, with early-layer features re-emerging at later layers, challenging standard assumptions about representational dynamics in transformer models.
PDF12May 27, 2025