Mesure des activations maximales dans les grands modèles de langage ouverts

Résumé

La plage dynamique des activations est une contrainte de premier ordre pour la quantification faible précision, la mise à l'échelle des activations et une inférence stable des LLM. Les travaux antérieurs ont caractérisé les caractéristiques aberrantes et les activations massives sur les modèles de type LLaMA antérieurs à 2024, et la chaîne de quantification des activations en aval hérite de cette représentation sans la réexaminer pour le boom des modèles ouverts post-LLaMA. Nous posons la question orientée déploiement : quelle est l'ampleur maximale des activations dans les LLM ouverts modernes, et comment cette ampleur varie-t-elle selon les familles, les générations et les étapes d'entraînement ? Sous un pipeline unifié (corpus multi-domaines de 5 000 échantillons, tokenisation spécifique à la famille, points d'insertion identiques sur les plongements, les états cachés, l'attention, les MLP/MoE, les portes SwiGLU et la normalisation finale), nous mesurons les maxima globaux et par couche sur 27 points de contrôle provenant de 8 familles ouvertes, couvrant des variantes denses, MoE, vision-langage, d'entraînement intermédiaire et ajustées par instructions. Nous constatons que (i) les maxima globaux s'étendent sur près de quatre ordres de grandeur pour des nombres de paramètres comparables, les points de contrôle Qwen3.5 et MoE se situant dans la plage 10² à 10³ et Gemma3-27B-it atteignant ~7 × 10⁵ ; (ii) les comparaisons inter-familles et inter-générations brisent une simple mise à l'échelle monotone ; et (iii) les points de contrôle MoE présentent des pics 14,0 à 23,4 fois inférieurs à ceux des homologues denses à échelle comparable, tandis que le flux résiduel porte le maximum global dans 22 des 24 points de contrôle. Un test de cohérence léger en INT-8 montre que les maxima mesurés covarient avec l'erreur de reconstruction faible précision via la sélection d'échelle d'activation. Nous concluons que l'ampleur maximale des activations est une propriété du modèle liée à la famille, à l'architecture et à l'étape d'entraînement — et non un simple sous-produit de la taille — et qu'elle devrait être mesurée et rapportée lors de toute publication de poids ouverts avant un déploiement faible précision. Le code est disponible publiquement à l'adresse https://github.com/clx1415926/Max_act_llm.

English

The dynamic range of activations is a first-order constraint for low-bit quantization, activation scaling, and stable LLM inference. Prior work characterized outlier features and massive activations on pre-2024 LLaMA-style models, and the downstream activation-quantization stack inherits that picture without revisiting it for the post-LLaMA open-model boom. We ask the deployment-oriented question: how large can activations get in modern open LLMs, and how does this magnitude vary across families, generations, and training stages? Under a unified pipeline (5,000-sample multi-domain corpus, family-specific tokenization, identical hooks across embeddings, hidden states, attention, MLP/MoE, SwiGLU gates, and final norm), we measure global and layerwise maxima on 27 checkpoints from 8 open families spanning dense, MoE, vision-language, intermediate-training, and instruction-tuned variants. We find that (i) global maxima span over nearly four orders of magnitude at comparable parameter counts, with Qwen3.5 and MoE checkpoints in the 10^2 to 10^3 range and Gemma3-27B-it reaching ~7 x 10^5; (ii) cross-family and cross-generation comparisons break simple monotonic scaling; and (iii) MoE checkpoints exhibit 14.0-23.4x lower peaks than matched-scale dense counterparts, while the residual stream carries the global maximum in 22/24 checkpoints. A lightweight INT-8 sanity check shows that measured maxima co-vary with low-bit reconstruction error via activation-scale selection. We conclude that maximum activation magnitude is a model property tied to family, architecture, and training stage - not a simple byproduct of size - and should be measured and reported alongside any open-weight release before low-bit deployment. The code is publicly available at https://github.com/clx1415926/Max_act_llm.