Многообразие данных под микроскопом

Аннотация

Существует значительный разрыв между теорией и практикой в глубоком обучении. Границы ошибок обобщения и аппроксимации часто выводятся для упрощенных моделей или оказываются слишком свободными, чтобы быть информативными. Многие опираются на гипотезу многообразия и на геометрические характеристики, такие как внутренняя размерность, кривизна и радиус достижимости. Прогресс требует понимания геометрии многообразий данных и подходящих эталонных тестов, однако существующие варианты поляризованы: аналитические многообразия с известной геометрией, но ограниченной применимостью, или реальные наборы данных, где геометрию можно оценить лишь грубо. Мы представляем эталонную платформу для изучения геометрии данных. Мы перепрофилируем и расширяем dSprites и COIL-20, добавляя новые оси преобразований и плотную, выровненную по осям выборку, и объединяем их с конечно-разностными оценщиками, которые восстанавливают кривизну, радиус достижимости и объем с точностью, близкой к эталонной, в условиях, где универсальные оценщики ненадежны или сложны в применении. Эта платформа задумана как контролируемый испытательный стенд, полезный как среда калибровки для геометрических оценщиков и «песочница» для проверки теоретических предположений. Для иллюстрации ее использования мы представляем два прикладных исследования, а именно оценку поведения границ Геновезе и соавт. и Фефермана и соавт. при масштабировании, а также отслеживание послойной геометрии β-VAE, подчеркивая поведение текущих границ и ценность контролируемых эталонов для направления и проверки будущей теории. Справочная реализация доступна по адресу https://github.com/koulakis/manifold-microscope.

English

A significant gap exists between theory and practice in deep learning. Generalization and approximation error bounds are often derived for simplified models or are too loose to be informative. Many rely on the manifold hypothesis and on geometric regularity such as intrinsic dimension, curvature, and reach. Progress requires insight into data-manifold geometry and suitable benchmarks, yet existing options are polarized: analytic manifolds with known geometry but limited applicability, or real-world datasets where geometry is only coarsely estimable. We introduce a benchmarking framework for studying data geometry. We repurpose and extend dSprites and COIL-20 with additional transformation dimensions and dense, axis-aligned sampling, and pair them with finite-difference estimators that recover curvature, reach, and volume at near-ground-truth accuracy in a regime where general-purpose estimators are unreliable or difficult to deploy. The framework is intended as a controlled testbed, useful as a calibration environment for geometric estimators and a sandbox for probing theoretical assumptions. To illustrate its use, we present two application studies, namely assessing the scaling behavior of the bounds of Genovese et al. and Fefferman et al., and tracking the layer-wise geometry of a β-VAE, highlighting the behavior of current bounds and the value of controlled benchmarks for guiding and validating future theory. A reference implementation is available at https://github.com/koulakis/manifold-microscope.