Bogue ou Fonctionnalité² : Dérive des poids, Parcimonie d'activation et Pointes

Résumé

La conception des architectures neuronales modernes a convergé par des choix empiriques incrémentaux, mais les mécanismes régissant leurs dynamiques d'apprentissage ne sont encore que partiellement compris. Nous identifions et analysons une dérive négative des poids induite par l'interaction entre les pertes standard et les fonctions d'activation à biais positif. Nous prouvons que sous la perte MSE ou l'entropie croisée, le gradient par rapport aux pré-activations positives est non négatif en espérance à l'initialisation, entraînant les poids aval vers des valeurs négatives en début d'apprentissage. La dérive est intrinsèque à l'optimisation plutôt qu'aux données, et persiste à travers les architectures (MLP, ResNet, ViT, GPT-nano, MP-SENe) et les fonctions d'activation asymétriques (ReLU, GELU, SiLU). Couplée à ReLU, la dérive des poids produit une parcimonie d'activation atteignant jusqu'à 90 % dans GPT-nano. Nous caractérisons le compromis parcimonie-précision sur 79 configurations et identifions un précipice de précision au-delà d'environ 70 % de parcimonie d'activation. Bien que ReLU^2 atteigne un bon rapport parcimonie-précision dans GPT-nano, il amplifie pathologiquement les pics d'activation identifiés dans les couches intermédiaires du transformeur. Le clipping résout ce problème tout en préservant les avantages représentationnels de l'élévation au carré : ReLU^2 avec clipping surpasse sa version non clippée, et GELU^2 atteint la perte de validation la plus faible sur GPT-nano. Le code est disponible à l'adresse https://github.com/On-Point-RND/BugOrFeature.

English

The design of modern neural architectures has converged through incremental empirical choices, yet the mechanisms governing their training dynamics remain only partially understood. We identify and analyze a negative weight drift induced by the interaction between standard losses and positively biased activation functions. We prove that under MSE or cross-entropy loss, the gradient with respect to positive pre-activations is non-negative in expectation at initialization, driving downstream weights toward negative values during early training. The drift is intrinsic to optimization rather than data, and persists across architectures (MLP, ResNet, ViT, GPT-nano, MP-SENe) and asymmetric activation functions (ReLU, GELU, SiLU). Coupled with ReLU, weight drift produces activation sparsity reaching up to 90\% in GPT-nano. We characterize the sparsity-accuracy tradeoff across 79 configurations and identify a sharp accuracy cliff above sim70\% activation sparsity. While ReLU^2 achieves a good sparsity--accuracy ratio in GPT-nano, it pathologically amplifies identified activation spikes in intermediate transformer layers. Clipping resolves this while preserving the representational benefits of squaring: clipped ReLU^2 outperforms its unclipped version, and GELU^2 achieves the lowest validation loss on GPT-nano. Code is available at https://github.com/On-Point-RND/BugOrFeature.