ChatPaper.aiChatPaper

Скрытая динамика массивных активаций при обучении трансформеров

Hidden Dynamics of Massive Activations in Transformer Training

August 5, 2025
Авторы: Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos
cs.AI

Аннотация

Массивные активации — это скалярные значения в скрытых состояниях трансформеров, которые достигают значений на порядки больше, чем типичные активации, и, как было показано, критически важны для функциональности модели. Хотя предыдущие работы описывали эти явления в полностью обученных моделях, временная динамика их появления в процессе обучения остается плохо изученной. Мы представляем первый всесторонний анализ развития массивных активаций в ходе обучения трансформеров, используя семейство моделей Pythia в качестве тестовой платформы. С помощью систематического анализа моделей различных размеров на множестве контрольных точек обучения мы демонстрируем, что появление массивных активаций следует предсказуемым математическим закономерностям, которые могут быть точно смоделированы с использованием экспоненциально-модулированной логарифмической функции с пятью ключевыми параметрами. Мы разрабатываем машинно-обучаемую структуру для предсказания этих математических параметров исключительно на основе архитектурных спецификаций, достигая высокой точности для стационарного поведения и умеренной точности для времени и величины появления. Эти результаты позволяют архитекторам предсказывать и потенциально контролировать ключевые аспекты появления массивных активаций через выбор дизайна, что имеет значительные последствия для стабильности модели, длительности цикла обучения, интерпретируемости и оптимизации. Наши результаты показывают, что появление массивных активаций определяется дизайном модели и может быть предсказано, а потенциально и контролируемо, еще до начала обучения.
English
Massive activations are scalar values in transformer hidden states that achieve values orders of magnitude larger than typical activations and have been shown to be critical for model functionality. While prior work has characterized these phenomena in fully trained models, the temporal dynamics of their emergence during training remain poorly understood. We present the first comprehensive analysis of massive activation development throughout transformer training, using the Pythia model family as our testbed. Through systematic analysis of various model sizes across multiple training checkpoints, we demonstrate that massive activation emergence follows predictable mathematical patterns that can be accurately modeled using an exponentially-modulated logarithmic function with five key parameters. We develop a machine learning framework to predict these mathematical parameters from architectural specifications alone, achieving high accuracy for steady-state behavior and moderate accuracy for emergence timing and magnitude. These findings enable architects to predict and potentially control key aspects of massive activation emergence through design choices, with significant implications for model stability, training cycle length, interpretability, and optimization. Our findings demonstrate that the emergence of massive activations is governed by model design and can be anticipated, and potentially controlled, before training begins.
PDF174August 11, 2025