Het datamanifold onder de microscoop

Samenvatting

Er bestaat een significante kloof tussen theorie en praktijk in diep leren. Generalisatie- en benaderingsfoutgrenzen worden vaak afgeleid voor vereenvoudigde modellen of zijn te los om informatief te zijn. Velen vertrouwen op de manifoldhypothese en op geometrische regelmatigheden zoals intrinsieke dimensie, kromming en bereik. Vooruitgang vereist inzicht in de geometrie van datamanifolds en geschikte benchmarks, maar bestaande opties zijn gepolariseerd: analytische manifolds met bekende geometrie maar beperkte toepasbaarheid, of datasets uit de praktijk waarvan de geometrie slechts grof te schatten is. We introduceren een benchmarkkader voor het bestuderen van datageometrie. We hergebruiken en breiden dSprites en COIL-20 uit met extra transformatiedimensies en dichte, as-uitgelijnde sampling, en koppelen ze aan eindige-verschilschatters die kromming, bereik en volume herstellen met een nauwkeurigheid dicht bij de grondwaarheid, in een regime waar algemene schatters onbetrouwbaar of moeilijk inzetbaar zijn. Het kader is bedoeld als een gecontroleerde testomgeving, nuttig als kalibratieomgeving voor geometrische schatters en als speeltuin voor het onderzoeken van theoretische aannames. Ter illustratie van het gebruik presenteren we twee toepassingsstudies, namelijk het beoordelen van het schalingsgedrag van de grenzen van Genovese et al. en Fefferman et al., en het volgen van de laagsgewijze geometrie van een β-VAE, waarbij het gedrag van huidige grenzen en de waarde van gecontroleerde benchmarks voor het sturen en valideren van toekomstige theorie worden benadrukt. Een referentie-implementatie is beschikbaar op https://github.com/koulakis/manifold-microscope.

English

A significant gap exists between theory and practice in deep learning. Generalization and approximation error bounds are often derived for simplified models or are too loose to be informative. Many rely on the manifold hypothesis and on geometric regularity such as intrinsic dimension, curvature, and reach. Progress requires insight into data-manifold geometry and suitable benchmarks, yet existing options are polarized: analytic manifolds with known geometry but limited applicability, or real-world datasets where geometry is only coarsely estimable. We introduce a benchmarking framework for studying data geometry. We repurpose and extend dSprites and COIL-20 with additional transformation dimensions and dense, axis-aligned sampling, and pair them with finite-difference estimators that recover curvature, reach, and volume at near-ground-truth accuracy in a regime where general-purpose estimators are unreliable or difficult to deploy. The framework is intended as a controlled testbed, useful as a calibration environment for geometric estimators and a sandbox for probing theoretical assumptions. To illustrate its use, we present two application studies, namely assessing the scaling behavior of the bounds of Genovese et al. and Fefferman et al., and tracking the layer-wise geometry of a β-VAE, highlighting the behavior of current bounds and the value of controlled benchmarks for guiding and validating future theory. A reference implementation is available at https://github.com/koulakis/manifold-microscope.