ChatPaper.aiChatPaper

Dinâmicas Ocultas das Ativações Maciças no Treinamento de Transformers

Hidden Dynamics of Massive Activations in Transformer Training

August 5, 2025
Autores: Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos
cs.AI

Resumo

Ativações massivas são valores escalares nos estados ocultos de transformadores que atingem valores ordens de magnitude maiores do que as ativações típicas e têm se mostrado críticos para a funcionalidade do modelo. Embora trabalhos anteriores tenham caracterizado esses fenômenos em modelos totalmente treinados, a dinâmica temporal de seu surgimento durante o treinamento permanece pouco compreendida. Apresentamos a primeira análise abrangente do desenvolvimento de ativações massivas ao longo do treinamento de transformadores, utilizando a família de modelos Pythia como nosso campo de testes. Através de uma análise sistemática de vários tamanhos de modelos em múltiplos pontos de verificação de treinamento, demonstramos que o surgimento de ativações massivas segue padrões matemáticos previsíveis que podem ser modelados com precisão usando uma função logarítmica modulada exponencialmente com cinco parâmetros-chave. Desenvolvemos uma estrutura de aprendizado de máquina para prever esses parâmetros matemáticos apenas a partir de especificações arquitetônicas, alcançando alta precisão para o comportamento em estado estacionário e precisão moderada para o tempo e magnitude de surgimento. Essas descobertas permitem que arquitetos prevejam e potencialmente controlem aspectos-chave do surgimento de ativações massivas por meio de escolhas de design, com implicações significativas para a estabilidade do modelo, duração do ciclo de treinamento, interpretabilidade e otimização. Nossos resultados demonstram que o surgimento de ativações massivas é governado pelo design do modelo e pode ser antecipado, e potencialmente controlado, antes que o treinamento comece.
English
Massive activations are scalar values in transformer hidden states that achieve values orders of magnitude larger than typical activations and have been shown to be critical for model functionality. While prior work has characterized these phenomena in fully trained models, the temporal dynamics of their emergence during training remain poorly understood. We present the first comprehensive analysis of massive activation development throughout transformer training, using the Pythia model family as our testbed. Through systematic analysis of various model sizes across multiple training checkpoints, we demonstrate that massive activation emergence follows predictable mathematical patterns that can be accurately modeled using an exponentially-modulated logarithmic function with five key parameters. We develop a machine learning framework to predict these mathematical parameters from architectural specifications alone, achieving high accuracy for steady-state behavior and moderate accuracy for emergence timing and magnitude. These findings enable architects to predict and potentially control key aspects of massive activation emergence through design choices, with significant implications for model stability, training cycle length, interpretability, and optimization. Our findings demonstrate that the emergence of massive activations is governed by model design and can be anticipated, and potentially controlled, before training begins.
PDF184August 11, 2025