Bug ou Recurso²: Deriva de Pesos, Esparsidade de Ativação e Picos

Resumo

O design de arquiteturas neurais modernas convergiu por meio de escolhas empíricas incrementais, porém os mecanismos que governam suas dinâmicas de treinamento permanecem apenas parcialmente compreendidos. Identificamos e analisamos um desvio negativo de pesos induzido pela interação entre funções de perda padrão e funções de ativação com viés positivo. Provamos que, sob perda MSE ou entropia cruzada, o gradiente em relação a pré-ativações positivas é não negativo em expectativa na inicialização, direcionando os pesos subsequentes para valores negativos durante o treinamento inicial. O desvio é intrínseco à otimização, e não aos dados, e persiste em diversas arquiteturas (MLP, ResNet, ViT, GPT-nano, MP-SENe) e funções de ativação assimétricas (ReLU, GELU, SiLU). Combinado com ReLU, o desvio de pesos produz esparsidade de ativação que atinge até 90% no GPT-nano. Caracterizamos o trade-off entre esparsidade e acurácia em 79 configurações e identificamos um precipício de acurácia acima de 70% de esparsidade de ativação. Embora ReLU² atinja uma boa relação esparsidade-acurácia no GPT-nano, ele amplifica patologicamente picos de ativação identificados em camadas intermediárias do transformer. O clipping resolve isso enquanto preserva os benefícios representacionais da quadratura: ReLU² com clipping supera sua versão sem clipping, e GELU² atinge a menor perda de validação no GPT-nano. O código está disponível em https://github.com/On-Point-RND/BugOrFeature.

English

The design of modern neural architectures has converged through incremental empirical choices, yet the mechanisms governing their training dynamics remain only partially understood. We identify and analyze a negative weight drift induced by the interaction between standard losses and positively biased activation functions. We prove that under MSE or cross-entropy loss, the gradient with respect to positive pre-activations is non-negative in expectation at initialization, driving downstream weights toward negative values during early training. The drift is intrinsic to optimization rather than data, and persists across architectures (MLP, ResNet, ViT, GPT-nano, MP-SENe) and asymmetric activation functions (ReLU, GELU, SiLU). Coupled with ReLU, weight drift produces activation sparsity reaching up to 90\% in GPT-nano. We characterize the sparsity-accuracy tradeoff across 79 configurations and identify a sharp accuracy cliff above sim70\% activation sparsity. While ReLU^2 achieves a good sparsity--accuracy ratio in GPT-nano, it pathologically amplifies identified activation spikes in intermediate transformer layers. Clipping resolves this while preserving the representational benefits of squaring: clipped ReLU^2 outperforms its unclipped version, and GELU^2 achieves the lowest validation loss on GPT-nano. Code is available at https://github.com/On-Point-RND/BugOrFeature.