El Nacimiento del Conocimiento: Características Emergentes a través del Tiempo, el Espacio y la Escala en Modelos de Lenguaje a Gran Escala
The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models
May 26, 2025
Autores: Shashata Sawmya, Micah Adler, Nir Shavit
cs.AI
Resumen
Este artículo estudia la aparición de características categóricas interpretables en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), analizando su comportamiento a lo largo de puntos de control de entrenamiento (tiempo), capas del transformador (espacio) y diferentes tamaños de modelos (escala). Utilizando autoencoders dispersos para la interpretabilidad mecanicista, identificamos cuándo y dónde emergen conceptos semánticos específicos dentro de las activaciones neuronales. Los resultados indican umbrales claros, tanto temporales como específicos de escala, para la aparición de características en múltiples dominios. Notablemente, el análisis espacial revela una reactivación semántica inesperada, donde características de capas tempranas reaparecen en capas posteriores, desafiando las suposiciones estándar sobre la dinámica representacional en los modelos de transformadores.
English
This paper studies the emergence of interpretable categorical features within
large language models (LLMs), analyzing their behavior across training
checkpoints (time), transformer layers (space), and varying model sizes
(scale). Using sparse autoencoders for mechanistic interpretability, we
identify when and where specific semantic concepts emerge within neural
activations. Results indicate clear temporal and scale-specific thresholds for
feature emergence across multiple domains. Notably, spatial analysis reveals
unexpected semantic reactivation, with early-layer features re-emerging at
later layers, challenging standard assumptions about representational dynamics
in transformer models.Summary
AI-Generated Summary