顕微鏡下のデータ多様体
The Data Manifold under the Microscope
June 14, 2026
著者: Marios Koulakis, Constantin Seibold
cs.AI
要旨
深層学習における理論と実践の間には大きな乖離が存在する。一般化誤差や近似誤差のバウンドは、多くの場合、単純化されたモデルに対して導出されるか、緩すぎて有益な情報をもたらさない。その多くは多様体仮説や、内在次元、曲率、リーチといった幾何学的正則性に依存している。進展にはデータ多様体の幾何学に対する洞察と適切なベンチマークが不可欠であるが、既存の選択肢は二極化している。すなわち、幾何学が既知であるが適用範囲が限られる解析的多様体か、あるいは幾何学が粗くしか推定できない実世界データセットのいずれかである。本稿では、データ幾何学を研究するためのベンチマークフレームワークを導入する。我々は、追加の変換次元と密な軸整列サンプリングを備えたdSpritesおよびCOIL-20を転用・拡張し、これらを有限差分推定器と組み合わせる。この推定器は、汎用推定器が信頼できないか導入が困難な状況において、曲率、リーチ、体積をほぼ真値に近い精度で回復する。本フレームワークは制御されたテストベッドとして意図されており、幾何学的推定器の校正環境や理論的仮定を探求するための砂場として有用である。その利用例として、GenoveseらおよびFeffermanらのバウンドのスケーリング挙動の評価、ならびにβ-VAEの層別幾何学の追跡という二つの応用研究を提示し、現状のバウンドの挙動と、将来の理論を導き検証するための制御されたベンチマークの価値を強調する。参考実装はhttps://github.com/koulakis/manifold-microscopeで入手可能である。
English
A significant gap exists between theory and practice in deep learning. Generalization and approximation error bounds are often derived for simplified models or are too loose to be informative. Many rely on the manifold hypothesis and on geometric regularity such as intrinsic dimension, curvature, and reach. Progress requires insight into data-manifold geometry and suitable benchmarks, yet existing options are polarized: analytic manifolds with known geometry but limited applicability, or real-world datasets where geometry is only coarsely estimable. We introduce a benchmarking framework for studying data geometry. We repurpose and extend dSprites and COIL-20 with additional transformation dimensions and dense, axis-aligned sampling, and pair them with finite-difference estimators that recover curvature, reach, and volume at near-ground-truth accuracy in a regime where general-purpose estimators are unreliable or difficult to deploy. The framework is intended as a controlled testbed, useful as a calibration environment for geometric estimators and a sandbox for probing theoretical assumptions. To illustrate its use, we present two application studies, namely assessing the scaling behavior of the bounds of Genovese et al. and Fefferman et al., and tracking the layer-wise geometry of a β-VAE, highlighting the behavior of current bounds and the value of controlled benchmarks for guiding and validating future theory.
A reference implementation is available at https://github.com/koulakis/manifold-microscope.