Riconsiderare le Previsioni dei Modelli di Diffusione Attraverso la Dimensionalità
Revisiting Diffusion Model Predictions Through Dimensionality
January 29, 2026
Autori: Qing Jin, Chaoyang Wang
cs.AI
Abstract
I recenti progressi nei modelli di diffusione e di flusso hanno evidenziato un cambiamento nell'obiettivo di predizione preferito, passando dalla predizione del rumore (ε) e della velocità (v) alla predizione diretta dei dati (x), specialmente in contesti ad alta dimensionalità. Tuttavia, una spiegazione formale del motivo per cui l'obiettivo ottimale dipenda dalle proprietà specifiche dei dati rimane elusiva. In questo lavoro, forniamo un quadro teorico basato su una formulazione di predizione generalizzata che accoglie obiettivi di output arbitrari, di cui ε-predizione, v-predizione e x-predizione sono casi particolari. Deriviamo la relazione analitica tra la geometria dei dati e l'obiettivo di predizione ottimale, offrendo una giustificazione rigorosa del motivo per cui la x-predizione diventa superiore quando la dimensione ambientale supera significativamente la dimensione intrinseca dei dati. Inoltre, sebbene la nostra teoria identifichi la dimensionalità come il fattore determinante per l'obiettivo di predizione ottimale, la dimensione intrinseca di dati vincolati a una varietà è tipicamente intrattabile da stimare nella pratica. Per colmare questa lacuna, proponiamo k-Diff, un framework che impiega un approccio guidato dai dati per apprendere direttamente dai dati il parametro di predizione ottimale k, bypassando la necessità di una stima esplicita della dimensione. Esperimenti estesi nella generazione di immagini sia in spazi latenti che in spazi di pixel dimostrano che k-Diff supera costantemente i baseline a obiettivo fisso su varie architetture e scale di dati, fornendo un approccio principiato e automatizzato per migliorare le prestazioni generative.
English
Recent advances in diffusion and flow matching models have highlighted a shift in the preferred prediction target -- moving from noise (varepsilon) and velocity (v) to direct data (x) prediction -- particularly in high-dimensional settings. However, a formal explanation of why the optimal target depends on the specific properties of the data remains elusive. In this work, we provide a theoretical framework based on a generalized prediction formulation that accommodates arbitrary output targets, of which varepsilon-, v-, and x-prediction are special cases. We derive the analytical relationship between data's geometry and the optimal prediction target, offering a rigorous justification for why x-prediction becomes superior when the ambient dimension significantly exceeds the data's intrinsic dimension. Furthermore, while our theory identifies dimensionality as the governing factor for the optimal prediction target, the intrinsic dimension of manifold-bound data is typically intractable to estimate in practice. To bridge this gap, we propose k-Diff, a framework that employs a data-driven approach to learn the optimal prediction parameter k directly from data, bypassing the need for explicit dimension estimation. Extensive experiments in both latent-space and pixel-space image generation demonstrate that k-Diff consistently outperforms fixed-target baselines across varying architectures and data scales, providing a principled and automated approach to enhancing generative performance.