A Variedade de Dados sob o Microscópio

Resumo

Existe uma lacuna significativa entre a teoria e a prática em aprendizado profundo. Limites de erro de generalização e aproximação são frequentemente derivados para modelos simplificados ou são demasiado frouxos para serem informativos. Muitos dependem da hipótese da variedade e de regularidades geométricas como dimensão intrínseca, curvatura e alcance. O progresso exige compreensão da geometria da variedade de dados e benchmarks adequados, mas as opções existentes são polarizadas: variedades analíticas com geometria conhecida, porém aplicabilidade limitada, ou conjuntos de dados do mundo real onde a geometria é apenas grosseiramente estimável. Apresentamos uma estrutura de benchmark para estudar a geometria de dados. Reutilizamos e estendemos dSprites e COIL-20 com dimensões de transformação adicionais e amostragem densa e alinhada aos eixos, e os combinamos com estimadores de diferenças finitas que recuperam curvatura, alcance e volume com precisão próxima ao valor real em um regime onde estimadores de propósito geral são não confiáveis ou difíceis de implementar. A estrutura é concebida como um ambiente de teste controlado, útil como ambiente de calibração para estimadores geométricos e um sandbox para sondar suposições teóricas. Para ilustrar seu uso, apresentamos dois estudos de aplicação: a avaliação do comportamento de escala dos limites de Genovese et al. e Fefferman et al., e o rastreamento da geometria camada por camada de um β-VAE, destacando o comportamento dos limites atuais e o valor de benchmarks controlados para orientar e validar teorias futuras. Uma implementação de referência está disponível em https://github.com/koulakis/manifold-microscope.

English

A significant gap exists between theory and practice in deep learning. Generalization and approximation error bounds are often derived for simplified models or are too loose to be informative. Many rely on the manifold hypothesis and on geometric regularity such as intrinsic dimension, curvature, and reach. Progress requires insight into data-manifold geometry and suitable benchmarks, yet existing options are polarized: analytic manifolds with known geometry but limited applicability, or real-world datasets where geometry is only coarsely estimable. We introduce a benchmarking framework for studying data geometry. We repurpose and extend dSprites and COIL-20 with additional transformation dimensions and dense, axis-aligned sampling, and pair them with finite-difference estimators that recover curvature, reach, and volume at near-ground-truth accuracy in a regime where general-purpose estimators are unreliable or difficult to deploy. The framework is intended as a controlled testbed, useful as a calibration environment for geometric estimators and a sandbox for probing theoretical assumptions. To illustrate its use, we present two application studies, namely assessing the scaling behavior of the bounds of Genovese et al. and Fefferman et al., and tracking the layer-wise geometry of a β-VAE, highlighting the behavior of current bounds and the value of controlled benchmarks for guiding and validating future theory. A reference implementation is available at https://github.com/koulakis/manifold-microscope.