El Nacimiento del Conocimiento: Características Emergentes a través del Tiempo, el Espacio y la Escala en Modelos de Lenguaje a Gran Escala

Resumen

Este artículo estudia la aparición de características categóricas interpretables en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), analizando su comportamiento a lo largo de puntos de control de entrenamiento (tiempo), capas del transformador (espacio) y diferentes tamaños de modelos (escala). Utilizando autoencoders dispersos para la interpretabilidad mecanicista, identificamos cuándo y dónde emergen conceptos semánticos específicos dentro de las activaciones neuronales. Los resultados indican umbrales claros, tanto temporales como específicos de escala, para la aparición de características en múltiples dominios. Notablemente, el análisis espacial revela una reactivación semántica inesperada, donde características de capas tempranas reaparecen en capas posteriores, desafiando las suposiciones estándar sobre la dinámica representacional en los modelos de transformadores.

English

This paper studies the emergence of interpretable categorical features within large language models (LLMs), analyzing their behavior across training checkpoints (time), transformer layers (space), and varying model sizes (scale). Using sparse autoencoders for mechanistic interpretability, we identify when and where specific semantic concepts emerge within neural activations. Results indicate clear temporal and scale-specific thresholds for feature emergence across multiple domains. Notably, spatial analysis reveals unexpected semantic reactivation, with early-layer features re-emerging at later layers, challenging standard assumptions about representational dynamics in transformer models.

El Nacimiento del Conocimiento: Características Emergentes a través del Tiempo, el Espacio y la Escala en Modelos de Lenguaje a Gran Escala

The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models

Resumen

Support