Sobre a Relação Entre a Geometria da Representação e a Generalização em Redes Neurais Profundas

Resumo

Investigamos a relação entre a geometria da representação e o desempenho de redes neurais. Analisando 52 modelos pré-treinados do ImageNet em 13 famílias de arquiteturas, demonstramos que a dimensão efetiva — uma métrica geométrica não supervisionada — prevê fortemente a precisão. A dimensão efetiva da saída alcança um r parcial de 0,75 (p < 10^(-10)) após o controle pela capacidade do modelo, enquanto a compressão total alcança um r parcial de -0,72. Esses achados replicam-se no ImageNet e no CIFAR-10 e generalizam para PLN: a dimensão efetiva prevê o desempenho para 8 modelos codificadores no SST-2/MNLI e 15 LLMs apenas-decodificador no AG News (r=0,69, p=0,004), enquanto o tamanho do modelo não o faz (r=0,07). Estabelecemos causalidade bidirecional: degradar a geometria via ruído causa perda de precisão (r=-0,94, p < 10^(-9)), enquanto melhorar a geometria via PCA mantém a precisão entre arquiteturas (-0,03pp a 95% de variância). Esta relação é agnóstica ao tipo de ruído — ruídos Gaussiano, Uniforme, *Dropout* e *Salt-and-pepper* mostram todos |r| > 0,90. Estes resultados estabelecem que a dimensão efetiva fornece informação preditiva e causal agnóstica de domínio sobre o desempenho de redes neurais, calculada inteiramente sem rótulos.

English

We investigate the relationship between representation geometry and neural network performance. Analyzing 52 pretrained ImageNet models across 13 architecture families, we show that effective dimension -- an unsupervised geometric metric -- strongly predicts accuracy. Output effective dimension achieves partial r=0.75 (p < 10^(-10)) after controlling for model capacity, while total compression achieves partial r=-0.72. These findings replicate across ImageNet and CIFAR-10, and generalize to NLP: effective dimension predicts performance for 8 encoder models on SST-2/MNLI and 15 decoder-only LLMs on AG News (r=0.69, p=0.004), while model size does not (r=0.07). We establish bidirectional causality: degrading geometry via noise causes accuracy loss (r=-0.94, p < 10^(-9)), while improving geometry via PCA maintains accuracy across architectures (-0.03pp at 95% variance). This relationship is noise-type agnostic -- Gaussian, Uniform, Dropout, and Salt-and-pepper noise all show |r| > 0.90. These results establish that effective dimension provides domain-agnostic predictive and causal information about neural network performance, computed entirely without labels.

Sobre a Relação Entre a Geometria da Representação e a Generalização em Redes Neurais Profundas

On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks

Resumo

Support