ChatPaper.aiChatPaper

O Nascimento do Conhecimento: Características Emergentes ao Longo do Tempo, Espaço e Escala em Modelos de Linguagem de Grande Porte

The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models

May 26, 2025
Autores: Shashata Sawmya, Micah Adler, Nir Shavit
cs.AI

Resumo

Este artigo investiga o surgimento de características categóricas interpretáveis em modelos de linguagem de grande escala (LLMs), analisando seu comportamento ao longo de checkpoints de treinamento (tempo), camadas do transformador (espaço) e diferentes tamanhos de modelos (escala). Utilizando autoencoders esparsos para interpretabilidade mecanicista, identificamos quando e onde conceitos semânticos específicos emergem nas ativações neurais. Os resultados indicam limiares temporais e específicos de escala claros para o surgimento de características em múltiplos domínios. Notavelmente, a análise espacial revela reativação semântica inesperada, com características de camadas iniciais ressurgindo em camadas posteriores, desafiando suposições padrão sobre a dinâmica representacional em modelos de transformadores.
English
This paper studies the emergence of interpretable categorical features within large language models (LLMs), analyzing their behavior across training checkpoints (time), transformer layers (space), and varying model sizes (scale). Using sparse autoencoders for mechanistic interpretability, we identify when and where specific semantic concepts emerge within neural activations. Results indicate clear temporal and scale-specific thresholds for feature emergence across multiple domains. Notably, spatial analysis reveals unexpected semantic reactivation, with early-layer features re-emerging at later layers, challenging standard assumptions about representational dynamics in transformer models.
PDF12December 16, 2025