Измерение максимальных активаций в открытых больших языковых моделях
Measuring Maximum Activations in Open Large Language Models
May 15, 2026
Авторы: Luxuan Chen, Han Tian, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin
cs.AI
Аннотация
Динамический диапазон активаций представляет собой ограничение первого порядка для низкобитного квантования, масштабирования активаций и стабильного вывода LLM. Предшествующие работы характеризовали выбросные признаки и массивные активации в моделях LLaMA-стиля, выпущенных до 2024 года, и последующий стек квантования активаций наследует эту картину, не пересматривая её в контексте бума открытых моделей после LLaMA. Мы задаём вопрос, ориентированный на развертывание: насколько большими могут быть активации в современных открытых LLM, и как эта величина варьируется между семействами, поколениями и стадиями обучения? Используя единый конвейер (корпус из 5000 образцов из нескольких доменов, токенизация, специфичная для семейства, идентичные точки подсоединения для эмбеддингов, скрытых состояний, внимания, MLP/MoE, вентилей SwiGLU и конечной нормализации), мы измеряем глобальные и послойные максимумы на 27 контрольных точках из 8 открытых семейств, охватывающих плотные, MoE, зрительно-языковые, промежуточного обучения и настроенные на инструкции варианты. Мы обнаруживаем, что (i) глобальные максимумы охватывают почти четыре порядка величины при сравнимых количествах параметров, при этом Qwen3.5 и контрольные точки MoE находятся в диапазоне от 10^2 до 10^3, а Gemma3-27B-it достигает ~7 × 10^5; (ii) межсемейные и межпоколенческие сравнения нарушают простую монотонную масштабируемость; (iii) контрольные точки MoE демонстрируют пики в 14,0–23,4 раза ниже, чем у аналогов плотной архитектуры с сопоставимым масштабом, при этом остаточный поток несёт глобальный максимум в 22 из 24 контрольных точек. Легковесная проверка INT-8 показывает, что измеренные максимумы совместно варьируются с ошибкой низкобитной реконструкции через выбор масштаба активаций. Мы заключаем, что величина максимальной активации является свойством модели, связанным с семейством, архитектурой и стадией обучения — а не простым побочным продуктом размера — и должна измеряться и сообщаться вместе с любым выпуском открытых весов перед низкобитным развертыванием. Код общедоступен по адресу https://github.com/clx1415926/Max_act_llm.
English
The dynamic range of activations is a first-order constraint for low-bit quantization, activation scaling, and stable LLM inference. Prior work characterized outlier features and massive activations on pre-2024 LLaMA-style models, and the downstream activation-quantization stack inherits that picture without revisiting it for the post-LLaMA open-model boom. We ask the deployment-oriented question: how large can activations get in modern open LLMs, and how does this magnitude vary across families, generations, and training stages? Under a unified pipeline (5,000-sample multi-domain corpus, family-specific tokenization, identical hooks across embeddings, hidden states, attention, MLP/MoE, SwiGLU gates, and final norm), we measure global and layerwise maxima on 27 checkpoints from 8 open families spanning dense, MoE, vision-language, intermediate-training, and instruction-tuned variants. We find that (i) global maxima span over nearly four orders of magnitude at comparable parameter counts, with Qwen3.5 and MoE checkpoints in the 10^2 to 10^3 range and Gemma3-27B-it reaching ~7 x 10^5; (ii) cross-family and cross-generation comparisons break simple monotonic scaling; and (iii) MoE checkpoints exhibit 14.0-23.4x lower peaks than matched-scale dense counterparts, while the residual stream carries the global maximum in 22/24 checkpoints. A lightweight INT-8 sanity check shows that measured maxima co-vary with low-bit reconstruction error via activation-scale selection. We conclude that maximum activation magnitude is a model property tied to family, architecture, and training stage - not a simple byproduct of size - and should be measured and reported alongside any open-weight release before low-bit deployment. The code is publicly available at https://github.com/clx1415926/Max_act_llm.