ChatPaper.aiChatPaper

심층 신경망의 표현 기하학과 일반화 성능 간의 관계에 관한 연구

On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks

January 28, 2026
저자: Sumit Yadav
cs.AI

초록

우리는 표현 기하학과 신경망 성능 간의 관계를 조사한다. 13개 아키텍처 패밀리에서 사전 학습된 52개의 ImageNet 모델을 분석하여, 비지도 기하학적 메트릭인 유효 차원이 정확도를 강력하게 예측함을 보여준다. 모델 용량을 통제한 후 출력 유효 차원은 부분 상관 r=0.75 (p < 10^(-10))를 달성하는 반면, 전체 압축률은 부분 상관 r=-0.72를 달성한다. 이러한 결과는 ImageNet과 CIFAR-10에서 재현되며 NLP로 일반화된다: 유효 차원은 SST-2/MNLI의 8개 인코더 모델과 AG News의 15개 디코더 전용 LLM에 대한 성능을 예측하지만(r=0.69, p=0.004), 모델 크기는 그렇지 않다(r=0.07). 우리는 양방향 인과 관계를 입증한다: 노이즈를 통한 기하학 저하는 정확도 손실을 초래하며(r=-0.94, p < 10^(-9)), PCA를 통한 기하학 개선은 아키텍처 전반에 걸쳐 정확도를 유지한다(분산 95%에서 -0.03pp). 이 관계는 노이즈 유형에 무관하다 — 가우시안, 균일, 드롭아웃, 솔트 앤 페퍼 노이즈 모두 |r| > 0.90을 보인다. 이러한 결과는 유효 차원이 레이블 없이 완전히 계산되면서 신경망 성능에 대한 도메인 무관 예측 및 인과 정보를 제공함을 입증한다.
English
We investigate the relationship between representation geometry and neural network performance. Analyzing 52 pretrained ImageNet models across 13 architecture families, we show that effective dimension -- an unsupervised geometric metric -- strongly predicts accuracy. Output effective dimension achieves partial r=0.75 (p < 10^(-10)) after controlling for model capacity, while total compression achieves partial r=-0.72. These findings replicate across ImageNet and CIFAR-10, and generalize to NLP: effective dimension predicts performance for 8 encoder models on SST-2/MNLI and 15 decoder-only LLMs on AG News (r=0.69, p=0.004), while model size does not (r=0.07). We establish bidirectional causality: degrading geometry via noise causes accuracy loss (r=-0.94, p < 10^(-9)), while improving geometry via PCA maintains accuracy across architectures (-0.03pp at 95% variance). This relationship is noise-type agnostic -- Gaussian, Uniform, Dropout, and Salt-and-pepper noise all show |r| > 0.90. These results establish that effective dimension provides domain-agnostic predictive and causal information about neural network performance, computed entirely without labels.
PDF34February 7, 2026