La variedad de datos al microscopio

Resumen

Existe una brecha significativa entre la teoría y la práctica en el aprendizaje profundo. Los límites de error de generalización y aproximación a menudo se derivan para modelos simplificados o son demasiado laxos para ser informativos. Muchos se basan en la hipótesis de la variedad y en la regularidad geométrica, como la dimensión intrínseca, la curvatura y el alcance. El progreso requiere comprender la geometría de la variedad de datos y contar con puntos de referencia adecuados; sin embargo, las opciones existentes están polarizadas: variedades analíticas con geometría conocida pero aplicabilidad limitada, o conjuntos de datos del mundo real donde la geometría solo puede estimarse de manera burda. Presentamos un marco de referencia para estudiar la geometría de los datos. Reutilizamos y extendemos dSprites y COIL-20 con dimensiones de transformación adicionales y un muestreo denso alineado con los ejes, y los emparejamos con estimadores de diferencias finitas que recuperan la curvatura, el alcance y el volumen con una precisión casi real en un régimen donde los estimadores de propósito general no son fiables o difíciles de implementar. El marco está concebido como un banco de pruebas controlado, útil como entorno de calibración para estimadores geométricos y como caja de arena para probar supuestos teóricos. Para ilustrar su uso, presentamos dos estudios de aplicación: evaluar el comportamiento de escalamiento de los límites de Genovese et al. y Fefferman et al., y rastrear la geometría capa por capa de un β-VAE, destacando el comportamiento de los límites actuales y el valor de los puntos de referencia controlados para guiar y validar la teoría futura. Una implementación de referencia está disponible en https://github.com/koulakis/manifold-microscope.

English

A significant gap exists between theory and practice in deep learning. Generalization and approximation error bounds are often derived for simplified models or are too loose to be informative. Many rely on the manifold hypothesis and on geometric regularity such as intrinsic dimension, curvature, and reach. Progress requires insight into data-manifold geometry and suitable benchmarks, yet existing options are polarized: analytic manifolds with known geometry but limited applicability, or real-world datasets where geometry is only coarsely estimable. We introduce a benchmarking framework for studying data geometry. We repurpose and extend dSprites and COIL-20 with additional transformation dimensions and dense, axis-aligned sampling, and pair them with finite-difference estimators that recover curvature, reach, and volume at near-ground-truth accuracy in a regime where general-purpose estimators are unreliable or difficult to deploy. The framework is intended as a controlled testbed, useful as a calibration environment for geometric estimators and a sandbox for probing theoretical assumptions. To illustrate its use, we present two application studies, namely assessing the scaling behavior of the bounds of Genovese et al. and Fefferman et al., and tracking the layer-wise geometry of a β-VAE, highlighting the behavior of current bounds and the value of controlled benchmarks for guiding and validating future theory. A reference implementation is available at https://github.com/koulakis/manifold-microscope.