Medición de las Activaciones Máximas en Modelos de Lenguaje Grandes Abiertos

Resumen

El rango dinámico de las activaciones es una restricción de primer orden para la cuantización de baja precisión, el escalado de activaciones y la inferencia estable de LLM. Trabajos previos caracterizaron características atípicas y activaciones masivas en modelos estilo LLaMA anteriores a 2024, y la pila de cuantización de activaciones aguas abajo hereda esa imagen sin revisarla para el auge de modelos abiertos posterior a LLaMA. Planteamos la pregunta orientada al despliegue: ¿qué tan grandes pueden llegar a ser las activaciones en los LLM abiertos modernos, y cómo varía esta magnitud entre familias, generaciones y etapas de entrenamiento? Bajo un pipeline unificado (corpus multidisciplinario de 5,000 muestras, tokenización específica por familia, hooks idénticos en embeddings, estados ocultos, atención, MLP/MoE, compuertas SwiGLU y norma final), medimos los máximos globales y por capa en 27 checkpoints de 8 familias abiertas que abarcan variantes densas, MoE, visión-lenguaje, entrenamiento intermedio y ajuste por instrucciones. Encontramos que (i) los máximos globales abarcan casi cuatro órdenes de magnitud en conteos de parámetros comparables, con Qwen3.5 y checkpoints MoE en el rango de 10² a 10³ y Gemma3-27B-it alcanzando ~7 × 10⁵; (ii) las comparaciones entre familias y entre generaciones rompen el escalamiento monotónico simple; y (iii) los checkpoints MoE exhiben picos 14.0-23.4× más bajos que sus contrapartes densas de escala equivalente, mientras que la transmisión residual transporta el máximo global en 22/24 checkpoints. Una verificación de cordura INT-8 ligera muestra que los máximos medidos covarián con el error de reconstrucción de baja precisión a través de la selección de escala de activación. Concluimos que la magnitud máxima de activación es una propiedad del modelo vinculada a la familia, la arquitectura y la etapa de entrenamiento —no un simple subproducto del tamaño— y debe medirse e informarse junto con cualquier publicación de pesos abiertos antes del despliegue de baja precisión. El código está disponible públicamente en https://github.com/clx1415926/Max_act_llm.

English

The dynamic range of activations is a first-order constraint for low-bit quantization, activation scaling, and stable LLM inference. Prior work characterized outlier features and massive activations on pre-2024 LLaMA-style models, and the downstream activation-quantization stack inherits that picture without revisiting it for the post-LLaMA open-model boom. We ask the deployment-oriented question: how large can activations get in modern open LLMs, and how does this magnitude vary across families, generations, and training stages? Under a unified pipeline (5,000-sample multi-domain corpus, family-specific tokenization, identical hooks across embeddings, hidden states, attention, MLP/MoE, SwiGLU gates, and final norm), we measure global and layerwise maxima on 27 checkpoints from 8 open families spanning dense, MoE, vision-language, intermediate-training, and instruction-tuned variants. We find that (i) global maxima span over nearly four orders of magnitude at comparable parameter counts, with Qwen3.5 and MoE checkpoints in the 10^2 to 10^3 range and Gemma3-27B-it reaching ~7 x 10^5; (ii) cross-family and cross-generation comparisons break simple monotonic scaling; and (iii) MoE checkpoints exhibit 14.0-23.4x lower peaks than matched-scale dense counterparts, while the residual stream carries the global maximum in 22/24 checkpoints. A lightweight INT-8 sanity check shows that measured maxima co-vary with low-bit reconstruction error via activation-scale selection. We conclude that maximum activation magnitude is a model property tied to family, architecture, and training stage - not a simple byproduct of size - and should be measured and reported alongside any open-weight release before low-bit deployment. The code is publicly available at https://github.com/clx1415926/Max_act_llm.