Рождение знаний: возникающие признаки во времени, пространстве и масштабе в крупных языковых моделях
The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models
May 26, 2025
Авторы: Shashata Sawmya, Micah Adler, Nir Shavit
cs.AI
Аннотация
В данной работе исследуется возникновение интерпретируемых категориальных признаков в крупных языковых моделях (LLM), анализируется их поведение на различных этапах обучения (временной аспект), в слоях трансформеров (пространственный аспект) и при различных размерах моделей (масштаб). Используя разреженные автокодировщики для механистической интерпретируемости, мы определяем, когда и где возникают конкретные семантические концепции в нейронных активациях. Результаты показывают четкие временные и масштабные пороги для появления признаков в различных областях. Примечательно, что пространственный анализ выявляет неожиданную семантическую реактивацию, когда признаки из ранних слоев повторно возникают в более поздних слоях, что ставит под сомнение стандартные предположения о динамике представлений в моделях трансформеров.
English
This paper studies the emergence of interpretable categorical features within
large language models (LLMs), analyzing their behavior across training
checkpoints (time), transformer layers (space), and varying model sizes
(scale). Using sparse autoencoders for mechanistic interpretability, we
identify when and where specific semantic concepts emerge within neural
activations. Results indicate clear temporal and scale-specific thresholds for
feature emergence across multiple domains. Notably, spatial analysis reveals
unexpected semantic reactivation, with early-layer features re-emerging at
later layers, challenging standard assumptions about representational dynamics
in transformer models.Summary
AI-Generated Summary