Die Datenmannigfaltigkeit unter dem Mikroskop

Zusammenfassung

Es besteht eine erhebliche Lücke zwischen Theorie und Praxis des Deep Learning. Generalisierungs- und Approximationsfehlerschranken werden oft für vereinfachte Modelle hergeleitet oder sind zu lose, um informativ zu sein. Viele stützen sich auf die Mannigfaltigkeitshypothese und auf geometrische Regularitäten wie intrinsische Dimension, Krümmung und Reichweite. Fortschritte erfordern Einblicke in die Geometrie von Datenmannigfaltigkeiten sowie geeignete Benchmarks, doch bestehende Optionen sind polarisiert: analytische Mannigfaltigkeiten mit bekannter Geometrie, aber begrenzter Anwendbarkeit, oder reale Datensätze, bei denen die Geometrie nur grob schätzbar ist. Wir stellen ein Benchmarking-Rahmenwerk zur Untersuchung der Daten-Geometrie vor. Wir nutzen dSprites und COIL-20 wieder und erweitern sie um zusätzliche Transformationsdimensionen und dichte, achsenausgerichtete Abtastung, und kombinieren sie mit Finite-Differenzen-Schätzern, die Krümmung, Reichweite und Volumen mit nahezu Grundwahrheitsgenauigkeit in einem Bereich wiederherstellen, in dem allgemeine Schätzer unzuverlässig oder schwer einsetzbar sind. Das Rahmenwerk ist als kontrollierte Testumgebung konzipiert, die als Kalibrierungsumgebung für geometrische Schätzer und als Sandkasten zur Prüfung theoretischer Annahmen nützlich ist. Zur Veranschaulichung seiner Verwendung präsentieren wir zwei Anwendungsstudien, nämlich die Bewertung des Skalierungsverhaltens der Schranken von Genovese et al. und Fefferman et al. sowie die Verfolgung der schichtweisen Geometrie eines β-VAE, wobei wir das Verhalten aktueller Schranken und den Wert kontrollierter Benchmarks für die Anleitung und Validierung künftiger Theorie hervorheben. Eine Referenzimplementierung ist verfügbar unter https://github.com/koulakis/manifold-microscope.

English

A significant gap exists between theory and practice in deep learning. Generalization and approximation error bounds are often derived for simplified models or are too loose to be informative. Many rely on the manifold hypothesis and on geometric regularity such as intrinsic dimension, curvature, and reach. Progress requires insight into data-manifold geometry and suitable benchmarks, yet existing options are polarized: analytic manifolds with known geometry but limited applicability, or real-world datasets where geometry is only coarsely estimable. We introduce a benchmarking framework for studying data geometry. We repurpose and extend dSprites and COIL-20 with additional transformation dimensions and dense, axis-aligned sampling, and pair them with finite-difference estimators that recover curvature, reach, and volume at near-ground-truth accuracy in a regime where general-purpose estimators are unreliable or difficult to deploy. The framework is intended as a controlled testbed, useful as a calibration environment for geometric estimators and a sandbox for probing theoretical assumptions. To illustrate its use, we present two application studies, namely assessing the scaling behavior of the bounds of Genovese et al. and Fefferman et al., and tracking the layer-wise geometry of a β-VAE, highlighting the behavior of current bounds and the value of controlled benchmarks for guiding and validating future theory. A reference implementation is available at https://github.com/koulakis/manifold-microscope.