La variété de données sous le microscope

Résumé

Il existe un écart significatif entre la théorie et la pratique en apprentissage profond. Les bornes d’erreur de généralisation et d’approximation sont souvent dérivées pour des modèles simplifiés ou sont trop lâches pour être informatives. Nombre d’entre elles reposent sur l’hypothèse de variété et sur la régularité géométrique telle que la dimension intrinsèque, la courbure et la portée. Les progrès nécessitent une compréhension de la géométrie des variétés de données et des benchmarks appropriés, pourtant les options existantes sont polarisées : des variétés analytiques avec une géométrie connue mais une applicabilité limitée, ou des ensembles de données réelles dont la géométrie n’est qu’approximativement estimable. Nous introduisons un cadre d’évaluation comparative pour étudier la géométrie des données. Nous réutilisons et étendons dSprites et COIL-20 avec des dimensions de transformation supplémentaires et un échantillonnage dense aligné sur les axes, et les associons à des estimateurs par différences finies qui retrouvent la courbure, la portée et le volume avec une précision proche de la vérité terrain dans un régime où les estimateurs généralistes sont peu fiables ou difficiles à déployer. Ce cadre est conçu comme un banc d’essai contrôlé, utile comme environnement de calibration pour les estimateurs géométriques et comme bac à sable pour sonder les hypothèses théoriques. Pour illustrer son utilisation, nous présentons deux études d’application, à savoir l’évaluation du comportement d’échelle des bornes de Genovese et al. et de Fefferman et al., et le suivi de la géométrie couche par couche d’un β-VAE, mettant en évidence le comportement des bornes actuelles et la valeur des benchmarks contrôlés pour guider et valider la théorie future. Une implémentation de référence est disponible à l’adresse https://github.com/koulakis/manifold-microscope.

English

A significant gap exists between theory and practice in deep learning. Generalization and approximation error bounds are often derived for simplified models or are too loose to be informative. Many rely on the manifold hypothesis and on geometric regularity such as intrinsic dimension, curvature, and reach. Progress requires insight into data-manifold geometry and suitable benchmarks, yet existing options are polarized: analytic manifolds with known geometry but limited applicability, or real-world datasets where geometry is only coarsely estimable. We introduce a benchmarking framework for studying data geometry. We repurpose and extend dSprites and COIL-20 with additional transformation dimensions and dense, axis-aligned sampling, and pair them with finite-difference estimators that recover curvature, reach, and volume at near-ground-truth accuracy in a regime where general-purpose estimators are unreliable or difficult to deploy. The framework is intended as a controlled testbed, useful as a calibration environment for geometric estimators and a sandbox for probing theoretical assumptions. To illustrate its use, we present two application studies, namely assessing the scaling behavior of the bounds of Genovese et al. and Fefferman et al., and tracking the layer-wise geometry of a β-VAE, highlighting the behavior of current bounds and the value of controlled benchmarks for guiding and validating future theory. A reference implementation is available at https://github.com/koulakis/manifold-microscope.