Medindo Ativações Máximas em Grandes Modelos de Linguagem Abertos

Resumo

A faixa dinâmica das ativações é uma restrição de primeira ordem para quantização de baixa precisão, escalonamento de ativações e inferência estável de LLMs. Trabalhos anteriores caracterizaram características outlier e ativações massivas em modelos estilo LLaMA anteriores a 2024, e a pilha subsequente de quantização de ativações herda esse quadro sem reavaliá-lo diante do boom de modelos abertos pós-LLaMA. Colocamos a questão orientada à implantação: quão grandes podem se tornar as ativações em LLMs abertos modernos, e como essa magnitude varia entre famílias, gerações e estágios de treinamento? Sob um pipeline unificado (corpus multidomínio de 5.000 amostras, tokenização específica da família, hooks idênticos em embeddings, estados ocultos, atenção, MLP/MoE, portas SwiGLU e norma final), medimos máximos globais e por camada em 27 checkpoints de 8 famílias abertas, abrangendo variantes densas, MoE, visão-linguagem, treinamento intermediário e ajustadas por instrução. Constatamos que (i) os máximos globais abrangem quase quatro ordens de magnitude em contagens de parâmetros comparáveis, com checkpoints Qwen3.5 e MoE na faixa de 10² a 10³ e Gemma3-27B-it atingindo ~7 × 10⁵; (ii) comparações entre famílias e entre gerações quebram a escalabilidade monotônica simples; e (iii) checkpoints MoE exibem picos 14,0–23,4 vezes menores do que equivalentes densos de escala semelhante, enquanto o fluxo residual carrega o máximo global em 22/24 checkpoints. Uma verificação de sanidade INT-8 leve mostra que os máximos medidos covariam com o erro de reconstrução de baixa precisão por meio da seleção de escala de ativação. Concluímos que a magnitude máxima de ativação é uma propriedade do modelo vinculada à família, arquitetura e estágio de treinamento – não um simples subproduto do tamanho – e deve ser medida e relatada junto com qualquer lançamento de pesos abertos antes da implantação de baixa precisão. O código está disponível publicamente em https://github.com/clx1415926/Max_act_llm.

English

The dynamic range of activations is a first-order constraint for low-bit quantization, activation scaling, and stable LLM inference. Prior work characterized outlier features and massive activations on pre-2024 LLaMA-style models, and the downstream activation-quantization stack inherits that picture without revisiting it for the post-LLaMA open-model boom. We ask the deployment-oriented question: how large can activations get in modern open LLMs, and how does this magnitude vary across families, generations, and training stages? Under a unified pipeline (5,000-sample multi-domain corpus, family-specific tokenization, identical hooks across embeddings, hidden states, attention, MLP/MoE, SwiGLU gates, and final norm), we measure global and layerwise maxima on 27 checkpoints from 8 open families spanning dense, MoE, vision-language, intermediate-training, and instruction-tuned variants. We find that (i) global maxima span over nearly four orders of magnitude at comparable parameter counts, with Qwen3.5 and MoE checkpoints in the 10^2 to 10^3 range and Gemma3-27B-it reaching ~7 x 10^5; (ii) cross-family and cross-generation comparisons break simple monotonic scaling; and (iii) MoE checkpoints exhibit 14.0-23.4x lower peaks than matched-scale dense counterparts, while the residual stream carries the global maximum in 22/24 checkpoints. A lightweight INT-8 sanity check shows that measured maxima co-vary with low-bit reconstruction error via activation-scale selection. We conclude that maximum activation magnitude is a model property tied to family, architecture, and training stage - not a simple byproduct of size - and should be measured and reported alongside any open-weight release before low-bit deployment. The code is publicly available at https://github.com/clx1415926/Max_act_llm.