Messung maximaler Aktivierungen in offenen großen Sprachmodellen

Zusammenfassung

Der Dynamikbereich von Aktivierungen ist eine grundlegende Einschränkung für die Niedrigbit-Quantisierung, Aktivierungsskalierung und stabile LLM-Inferenz. Frühere Arbeiten charakterisierten Ausreißermerkmale und massive Aktivierungen bei LLaMA-artigen Modellen vor 2024, und der nachgelagerte Aktivierungs-Quantisierungs-Stack übernimmt dieses Bild, ohne es für den Open-Model-Boom nach LLaMA erneut zu überprüfen. Wir stellen die einsatzorientierte Frage: Wie groß können Aktivierungen in modernen offenen LLMs werden, und wie variiert diese Größenordnung über Familien, Generationen und Trainingsstadien hinweg? Unter einer einheitlichen Pipeline (5.000-Stichproben-Multi-Domain-Korpus, familienspezifische Tokenisierung, identische Hooks über Embeddings, verborgene Zustände, Attention, MLP/MoE, SwiGLU-Gates und finale Norm) messen wir globale und schichtweise Maxima an 27 Checkpoints aus 8 offenen Familien, die dichte Modelle, MoE, Sprach-Bild-Modelle, Zwischentrainings- und anweisungsabgestimmte Varianten umfassen. Wir stellen fest: (i) Globale Maxima erstrecken sich über fast vier Größenordnungen bei vergleichbaren Parameteranzahlen, wobei Qwen3.5 und MoE-Checkpoints im Bereich von 10^2 bis 10^3 liegen und Gemma3-27B-it etwa 7 × 10^5 erreicht; (ii) familien- und generationsübergreifende Vergleiche brechen mit einfachem monotonem Skalierungsverhalten; (iii) MoE-Checkpoints zeigen 14,0- bis 23,4-mal niedrigere Spitzenwerte als vergleichbar große dichte Gegenstücke, während der Residualstrom in 22 von 24 Checkpoints das globale Maximum trägt. Eine leichte INT-8-Plausibilitätsprüfung zeigt, dass gemessene Maxima über die Auswahl der Aktivierungsskala mit dem Niedrigbit-Rekonstruktionsfehler kovariieren. Wir schlussfolgern, dass die maximale Aktivierungsgröße eine Modelleigenschaft ist, die an Familie, Architektur und Trainingsstadium gebunden ist – kein einfaches Nebenprodukt der Größe – und vor einem Niedrigbit-Einsatz zusammen mit jeder Open-Weight-Veröffentlichung gemessen und berichtet werden sollte. Der Code ist öffentlich verfügbar unter https://github.com/clx1415926/Max_act_llm.

English

The dynamic range of activations is a first-order constraint for low-bit quantization, activation scaling, and stable LLM inference. Prior work characterized outlier features and massive activations on pre-2024 LLaMA-style models, and the downstream activation-quantization stack inherits that picture without revisiting it for the post-LLaMA open-model boom. We ask the deployment-oriented question: how large can activations get in modern open LLMs, and how does this magnitude vary across families, generations, and training stages? Under a unified pipeline (5,000-sample multi-domain corpus, family-specific tokenization, identical hooks across embeddings, hidden states, attention, MLP/MoE, SwiGLU gates, and final norm), we measure global and layerwise maxima on 27 checkpoints from 8 open families spanning dense, MoE, vision-language, intermediate-training, and instruction-tuned variants. We find that (i) global maxima span over nearly four orders of magnitude at comparable parameter counts, with Qwen3.5 and MoE checkpoints in the 10^2 to 10^3 range and Gemma3-27B-it reaching ~7 x 10^5; (ii) cross-family and cross-generation comparisons break simple monotonic scaling; and (iii) MoE checkpoints exhibit 14.0-23.4x lower peaks than matched-scale dense counterparts, while the residual stream carries the global maximum in 22/24 checkpoints. A lightweight INT-8 sanity check shows that measured maxima co-vary with low-bit reconstruction error via activation-scale selection. We conclude that maximum activation magnitude is a model property tied to family, architecture, and training stage - not a simple byproduct of size - and should be measured and reported alongside any open-weight release before low-bit deployment. The code is publicly available at https://github.com/clx1415926/Max_act_llm.