Измерение максимальных активаций в открытых больших языковых моделях

Аннотация

Динамический диапазон активаций представляет собой ограничение первого порядка для низкобитного квантования, масштабирования активаций и стабильного вывода LLM. Предшествующие работы характеризовали выбросные признаки и массивные активации в моделях LLaMA-стиля, выпущенных до 2024 года, и последующий стек квантования активаций наследует эту картину, не пересматривая её в контексте бума открытых моделей после LLaMA. Мы задаём вопрос, ориентированный на развертывание: насколько большими могут быть активации в современных открытых LLM, и как эта величина варьируется между семействами, поколениями и стадиями обучения? Используя единый конвейер (корпус из 5000 образцов из нескольких доменов, токенизация, специфичная для семейства, идентичные точки подсоединения для эмбеддингов, скрытых состояний, внимания, MLP/MoE, вентилей SwiGLU и конечной нормализации), мы измеряем глобальные и послойные максимумы на 27 контрольных точках из 8 открытых семейств, охватывающих плотные, MoE, зрительно-языковые, промежуточного обучения и настроенные на инструкции варианты. Мы обнаруживаем, что (i) глобальные максимумы охватывают почти четыре порядка величины при сравнимых количествах параметров, при этом Qwen3.5 и контрольные точки MoE находятся в диапазоне от 10^2 до 10^3, а Gemma3-27B-it достигает ~7 × 10^5; (ii) межсемейные и межпоколенческие сравнения нарушают простую монотонную масштабируемость; (iii) контрольные точки MoE демонстрируют пики в 14,0–23,4 раза ниже, чем у аналогов плотной архитектуры с сопоставимым масштабом, при этом остаточный поток несёт глобальный максимум в 22 из 24 контрольных точек. Легковесная проверка INT-8 показывает, что измеренные максимумы совместно варьируются с ошибкой низкобитной реконструкции через выбор масштаба активаций. Мы заключаем, что величина максимальной активации является свойством модели, связанным с семейством, архитектурой и стадией обучения — а не простым побочным продуктом размера — и должна измеряться и сообщаться вместе с любым выпуском открытых весов перед низкобитным развертыванием. Код общедоступен по адресу https://github.com/clx1415926/Max_act_llm.

English

The dynamic range of activations is a first-order constraint for low-bit quantization, activation scaling, and stable LLM inference. Prior work characterized outlier features and massive activations on pre-2024 LLaMA-style models, and the downstream activation-quantization stack inherits that picture without revisiting it for the post-LLaMA open-model boom. We ask the deployment-oriented question: how large can activations get in modern open LLMs, and how does this magnitude vary across families, generations, and training stages? Under a unified pipeline (5,000-sample multi-domain corpus, family-specific tokenization, identical hooks across embeddings, hidden states, attention, MLP/MoE, SwiGLU gates, and final norm), we measure global and layerwise maxima on 27 checkpoints from 8 open families spanning dense, MoE, vision-language, intermediate-training, and instruction-tuned variants. We find that (i) global maxima span over nearly four orders of magnitude at comparable parameter counts, with Qwen3.5 and MoE checkpoints in the 10^2 to 10^3 range and Gemma3-27B-it reaching ~7 x 10^5; (ii) cross-family and cross-generation comparisons break simple monotonic scaling; and (iii) MoE checkpoints exhibit 14.0-23.4x lower peaks than matched-scale dense counterparts, while the residual stream carries the global maximum in 22/24 checkpoints. A lightweight INT-8 sanity check shows that measured maxima co-vary with low-bit reconstruction error via activation-scale selection. We conclude that maximum activation magnitude is a model property tied to family, architecture, and training stage - not a simple byproduct of size - and should be measured and reported alongside any open-weight release before low-bit deployment. The code is publicly available at https://github.com/clx1415926/Max_act_llm.