ChatPaper.aiChatPaper

Sur la relation entre la géométrie des représentations et la généralisation dans les réseaux de neurones profonds

On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks

January 28, 2026
papers.authors: Sumit Yadav
cs.AI

papers.abstract

Nous étudions la relation entre la géométrie des représentations et les performances des réseaux de neurones. En analysant 52 modèles pré-entraînés sur ImageNet couvrant 13 familles architecturales, nous montrons que la dimension effective — une mesure géométrique non supervisée — prédit fortement la précision. La dimension effective en sortie atteint un r partiel de 0,75 (p < 10^(-10)) après contrôle de la capacité du modèle, tandis que la compression totale atteint un r partiel de -0,72. Ces résultats se reproduisent sur ImageNet et CIFAR-10, et se généralisent au TAL : la dimension effective prédit les performances pour 8 modèles encodeurs sur SST-2/MNLI et 15 LLMs décodeurs uniquement sur AG News (r=0,69, p=0,004), contrairement à la taille du modèle (r=0,07). Nous établissons une causalité bidirectionnelle : la dégradation de la géométrie par du bruit entraîne une perte de précision (r=-0,94, p < 10^(-9)), tandis que l'amélioration de la géométrie par ACP maintient la précision across architectures (-0,03pp à 95% de variance). Cette relation est indépendante du type de bruit — les bruits gaussien, uniforme, d'abandon et poivre et sel montrent tous |r| > 0,90. Ces résultats établissent que la dimension effective fournit une information prédictive et causale indépendante du domaine concernant les performances des réseaux de neurones, calculée entièrement sans étiquettes.
English
We investigate the relationship between representation geometry and neural network performance. Analyzing 52 pretrained ImageNet models across 13 architecture families, we show that effective dimension -- an unsupervised geometric metric -- strongly predicts accuracy. Output effective dimension achieves partial r=0.75 (p < 10^(-10)) after controlling for model capacity, while total compression achieves partial r=-0.72. These findings replicate across ImageNet and CIFAR-10, and generalize to NLP: effective dimension predicts performance for 8 encoder models on SST-2/MNLI and 15 decoder-only LLMs on AG News (r=0.69, p=0.004), while model size does not (r=0.07). We establish bidirectional causality: degrading geometry via noise causes accuracy loss (r=-0.94, p < 10^(-9)), while improving geometry via PCA maintains accuracy across architectures (-0.03pp at 95% variance). This relationship is noise-type agnostic -- Gaussian, Uniform, Dropout, and Salt-and-pepper noise all show |r| > 0.90. These results establish that effective dimension provides domain-agnostic predictive and causal information about neural network performance, computed entirely without labels.
PDF34February 7, 2026