¿Bug o Feature?^2: Deriva de pesos, Dispersión de activación y Espigas

Resumen

El diseño de las arquitecturas neuronales modernas se ha consolidado mediante elecciones empíricas incrementales, pero los mecanismos que gobiernan sus dinámicas de entrenamiento siguen siendo solo parcialmente comprendidos. Identificamos y analizamos una deriva negativa de pesos inducida por la interacción entre funciones de pérdida estándar y funciones de activación con sesgo positivo. Demostramos que, bajo pérdida MSE o entropía cruzada, el gradiente respecto a preactivaciones positivas es no negativo en expectativa al inicio, lo que impulsa los pesos hacia valores negativos durante las primeras fases del entrenamiento. La deriva es intrínseca a la optimización, no a los datos, y persiste entre arquitecturas (MLP, ResNet, ViT, GPT-nano, MP-SENe) y funciones de activación asimétricas (ReLU, GELU, SiLU). Combinada con ReLU, la deriva de pesos produce una esparcidad de activación que alcanza hasta el 90 % en GPT-nano. Caracterizamos el equilibrio entre esparcidad y precisión en 79 configuraciones e identificamos un precipicio de precisión pronunciado por encima de ~70 % de esparcidad de activación. Si bien ReLU² alcanza una buena relación esparcidad-precisión en GPT-nano, amplifica patológicamente los picos de activación identificados en capas intermedias del transformer. El recorte (clipping) resuelve esto conservando los beneficios representacionales de la cuadratura: ReLU² recortado supera a su versión sin recortar, y GELU² alcanza la menor pérdida de validación en GPT-nano. El código está disponible en https://github.com/On-Point-RND/BugOrFeature.

English

The design of modern neural architectures has converged through incremental empirical choices, yet the mechanisms governing their training dynamics remain only partially understood. We identify and analyze a negative weight drift induced by the interaction between standard losses and positively biased activation functions. We prove that under MSE or cross-entropy loss, the gradient with respect to positive pre-activations is non-negative in expectation at initialization, driving downstream weights toward negative values during early training. The drift is intrinsic to optimization rather than data, and persists across architectures (MLP, ResNet, ViT, GPT-nano, MP-SENe) and asymmetric activation functions (ReLU, GELU, SiLU). Coupled with ReLU, weight drift produces activation sparsity reaching up to 90\% in GPT-nano. We characterize the sparsity-accuracy tradeoff across 79 configurations and identify a sharp accuracy cliff above sim70\% activation sparsity. While ReLU^2 achieves a good sparsity--accuracy ratio in GPT-nano, it pathologically amplifies identified activation spikes in intermediate transformer layers. Clipping resolves this while preserving the representational benefits of squaring: clipped ReLU^2 outperforms its unclipped version, and GELU^2 achieves the lowest validation loss on GPT-nano. Code is available at https://github.com/On-Point-RND/BugOrFeature.