Opnieuw bekijken van diffusiemodelvoorspellingen door middel van dimensionaliteit
Revisiting Diffusion Model Predictions Through Dimensionality
January 29, 2026
Auteurs: Qing Jin, Chaoyang Wang
cs.AI
Samenvatting
Recente vooruitgang in diffusie- en flow matching-modellen heeft een verschuiving aangetoond in het voorkeursvoorspelingsdoel – van ruis (ε) en snelheid (v) naar directe data (x) voorspelling – met name in hoogdimensionale settings. Een formele verklaring waarom het optimale doel afhangt van de specifieke eigenschappen van de data ontbreekt echter nog. In dit werk presenteren we een theoretisch kader gebaseerd op een gegeneraliseerde voorspellingsformulering die willekeurige uitvoerdoelen omvat, waarvan ε-, v- en x-voorspelling speciale gevallen zijn. We leiden het analytische verband af tussen de geometrie van de data en het optimale voorspelingsdoel, wat een rigoureuze rechtvaardiging biedt voor waarom x-voorspelling superieur wordt wanneer de omringende dimensie de intrinsieke dimensie van de data significant overstijgt. Verder, hoewel onze theorie dimensionaliteit aanwijst als de bepalende factor voor het optimale voorspelingsdoel, is de intrinsieke dimensie van op een variëteit gebonden data in de praktijk typisch onberekenbaar. Om deze kloof te overbruggen, stellen we k-Diff voor, een kader dat een data-gedreven aanpak gebruikt om de optimale voorspellingsparameter k rechtstreeks uit data te leren, zonder expliciete dimensieschatting. Uitgebreide experimenten in zowel latent-space als pixel-space beeldgeneratie tonen aan dat k-Diff consistent beter presteert dan baseline-modellen met vaste doelen across verschillende architecturen en dataschaallen, wat een principekundige en geautomatiseerde aanpak biedt om generatieve prestaties te verbeteren.
English
Recent advances in diffusion and flow matching models have highlighted a shift in the preferred prediction target -- moving from noise (varepsilon) and velocity (v) to direct data (x) prediction -- particularly in high-dimensional settings. However, a formal explanation of why the optimal target depends on the specific properties of the data remains elusive. In this work, we provide a theoretical framework based on a generalized prediction formulation that accommodates arbitrary output targets, of which varepsilon-, v-, and x-prediction are special cases. We derive the analytical relationship between data's geometry and the optimal prediction target, offering a rigorous justification for why x-prediction becomes superior when the ambient dimension significantly exceeds the data's intrinsic dimension. Furthermore, while our theory identifies dimensionality as the governing factor for the optimal prediction target, the intrinsic dimension of manifold-bound data is typically intractable to estimate in practice. To bridge this gap, we propose k-Diff, a framework that employs a data-driven approach to learn the optimal prediction parameter k directly from data, bypassing the need for explicit dimension estimation. Extensive experiments in both latent-space and pixel-space image generation demonstrate that k-Diff consistently outperforms fixed-target baselines across varying architectures and data scales, providing a principled and automated approach to enhancing generative performance.