ChatPaper.aiChatPaper

Sobre la Relación entre la Geometría de la Representación y la Generalización en Redes Neuronales Profundas

On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks

January 28, 2026
Autores: Sumit Yadav
cs.AI

Resumen

Investigamos la relación entre la geometría de representación y el rendimiento de las redes neuronales. Analizando 52 modelos preentrenados de ImageNet en 13 familias arquitectónicas, demostramos que la dimensión efectiva —una métrica geométrica no supervisada— predice fuertemente la precisión. La dimensión efectiva de salida alcanza una r parcial=0.75 (p < 10^(-10)) tras controlar por capacidad del modelo, mientras que la compresión total alcanza una r parcial=-0.72. Estos hallazgos se replican en ImageNet y CIFAR-10, y se generalizan a PLN: la dimensión efectiva predice el rendimiento para 8 modelos codificadores en SST-2/MNLI y 15 LLMs solo-decodificador en AG News (r=0.69, p=0.004), mientras que el tamaño del modelo no lo hace (r=0.07). Establecemos causalidad bidireccional: degradar la geometría mediante ruido causa pérdida de precisión (r=-0.94, p < 10^(-9)), mientras que mejorar la geometría mediante PCA mantiene la precisión en distintas arquitecturas (-0.03pp al 95% de varianza). Esta relación es independiente del tipo de ruido —ruido Gaussiano, Uniforme, Dropout y Sal y Pimienta muestran todos |r| > 0.90. Estos resultados establecen que la dimensión efectiva proporciona información predictiva y causal independiente del dominio sobre el rendimiento de redes neuronales, calculada completamente sin etiquetas.
English
We investigate the relationship between representation geometry and neural network performance. Analyzing 52 pretrained ImageNet models across 13 architecture families, we show that effective dimension -- an unsupervised geometric metric -- strongly predicts accuracy. Output effective dimension achieves partial r=0.75 (p < 10^(-10)) after controlling for model capacity, while total compression achieves partial r=-0.72. These findings replicate across ImageNet and CIFAR-10, and generalize to NLP: effective dimension predicts performance for 8 encoder models on SST-2/MNLI and 15 decoder-only LLMs on AG News (r=0.69, p=0.004), while model size does not (r=0.07). We establish bidirectional causality: degrading geometry via noise causes accuracy loss (r=-0.94, p < 10^(-9)), while improving geometry via PCA maintains accuracy across architectures (-0.03pp at 95% variance). This relationship is noise-type agnostic -- Gaussian, Uniform, Dropout, and Salt-and-pepper noise all show |r| > 0.90. These results establish that effective dimension provides domain-agnostic predictive and causal information about neural network performance, computed entirely without labels.
PDF34February 7, 2026