ChatPaper.aiChatPaper

Messung maximaler Aktivierungen in offenen großen Sprachmodellen

Measuring Maximum Activations in Open Large Language Models

May 15, 2026
Autoren: Luxuan Chen, Han Tian, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin
cs.AI

Zusammenfassung

Der Dynamikbereich von Aktivierungen ist eine grundlegende Einschränkung für die Niedrigbit-Quantisierung, Aktivierungsskalierung und stabile LLM-Inferenz. Frühere Arbeiten charakterisierten Ausreißermerkmale und massive Aktivierungen bei LLaMA-artigen Modellen vor 2024, und der nachgelagerte Aktivierungs-Quantisierungs-Stack übernimmt dieses Bild, ohne es für den Open-Model-Boom nach LLaMA erneut zu überprüfen. Wir stellen die einsatzorientierte Frage: Wie groß können Aktivierungen in modernen offenen LLMs werden, und wie variiert diese Größenordnung über Familien, Generationen und Trainingsstadien hinweg? Unter einer einheitlichen Pipeline (5.000-Stichproben-Multi-Domain-Korpus, familienspezifische Tokenisierung, identische Hooks über Embeddings, verborgene Zustände, Attention, MLP/MoE, SwiGLU-Gates und finale Norm) messen wir globale und schichtweise Maxima an 27 Checkpoints aus 8 offenen Familien, die dichte Modelle, MoE, Sprach-Bild-Modelle, Zwischentrainings- und anweisungsabgestimmte Varianten umfassen. Wir stellen fest: (i) Globale Maxima erstrecken sich über fast vier Größenordnungen bei vergleichbaren Parameteranzahlen, wobei Qwen3.5 und MoE-Checkpoints im Bereich von 10^2 bis 10^3 liegen und Gemma3-27B-it etwa 7 × 10^5 erreicht; (ii) familien- und generationsübergreifende Vergleiche brechen mit einfachem monotonem Skalierungsverhalten; (iii) MoE-Checkpoints zeigen 14,0- bis 23,4-mal niedrigere Spitzenwerte als vergleichbar große dichte Gegenstücke, während der Residualstrom in 22 von 24 Checkpoints das globale Maximum trägt. Eine leichte INT-8-Plausibilitätsprüfung zeigt, dass gemessene Maxima über die Auswahl der Aktivierungsskala mit dem Niedrigbit-Rekonstruktionsfehler kovariieren. Wir schlussfolgern, dass die maximale Aktivierungsgröße eine Modelleigenschaft ist, die an Familie, Architektur und Trainingsstadium gebunden ist – kein einfaches Nebenprodukt der Größe – und vor einem Niedrigbit-Einsatz zusammen mit jeder Open-Weight-Veröffentlichung gemessen und berichtet werden sollte. Der Code ist öffentlich verfügbar unter https://github.com/clx1415926/Max_act_llm.
English
The dynamic range of activations is a first-order constraint for low-bit quantization, activation scaling, and stable LLM inference. Prior work characterized outlier features and massive activations on pre-2024 LLaMA-style models, and the downstream activation-quantization stack inherits that picture without revisiting it for the post-LLaMA open-model boom. We ask the deployment-oriented question: how large can activations get in modern open LLMs, and how does this magnitude vary across families, generations, and training stages? Under a unified pipeline (5,000-sample multi-domain corpus, family-specific tokenization, identical hooks across embeddings, hidden states, attention, MLP/MoE, SwiGLU gates, and final norm), we measure global and layerwise maxima on 27 checkpoints from 8 open families spanning dense, MoE, vision-language, intermediate-training, and instruction-tuned variants. We find that (i) global maxima span over nearly four orders of magnitude at comparable parameter counts, with Qwen3.5 and MoE checkpoints in the 10^2 to 10^3 range and Gemma3-27B-it reaching ~7 x 10^5; (ii) cross-family and cross-generation comparisons break simple monotonic scaling; and (iii) MoE checkpoints exhibit 14.0-23.4x lower peaks than matched-scale dense counterparts, while the residual stream carries the global maximum in 22/24 checkpoints. A lightweight INT-8 sanity check shows that measured maxima co-vary with low-bit reconstruction error via activation-scale selection. We conclude that maximum activation magnitude is a model property tied to family, architecture, and training stage - not a simple byproduct of size - and should be measured and reported alongside any open-weight release before low-bit deployment. The code is publicly available at https://github.com/clx1415926/Max_act_llm.