Réexamen des prédictions des modèles de diffusion par la dimensionnalité
Revisiting Diffusion Model Predictions Through Dimensionality
January 29, 2026
papers.authors: Qing Jin, Chaoyang Wang
cs.AI
papers.abstract
Les progrès récents des modèles de diffusion et d'appariement de flux ont mis en lumière un changement dans la cible de prédiction privilégiée – passant de la prédiction du bruit (ε) et de la vitesse (v) à la prédiction directe des données (x) – particulièrement dans les contextes de haute dimension. Cependant, une explication formelle des raisons pour lesquelles la cible optimale dépend des propriétés spécifiques des données reste insaisissable. Dans ce travail, nous proposons un cadre théorique basé sur une formulation de prédiction généralisée qui accommode des cibles de sortie arbitraires, dont les prédictions ε, v et x sont des cas particuliers. Nous dérivons la relation analytique entre la géométrie des données et la cible de prédiction optimale, offrant une justification rigoureuse expliquant pourquoi la prédiction x devient supérieure lorsque la dimension ambiante dépasse significativement la dimension intrinsèque des données. Par ailleurs, bien que notre théorie identifie la dimensionnalité comme le facteur gouvernant la cible de prédiction optimale, la dimension intrinsèque de données contraintes sur une variété est généralement intraitable à estimer en pratique. Pour combler cette lacune, nous proposons k-Diff, un cadre qui emploie une approche pilotée par les données pour apprendre directement le paramètre de prédiction optimal k à partir des données, contournant ainsi le besoin d'une estimation explicite de la dimension. Des expériences approfondies en génération d'images dans l'espace latent et l'espace pixel démontrent que k-Diff surpasse constamment les modèles de référence à cible fixe across différentes architectures et échelles de données, fournissant une approche principielle et automatisée pour améliorer les performances génératives.
English
Recent advances in diffusion and flow matching models have highlighted a shift in the preferred prediction target -- moving from noise (varepsilon) and velocity (v) to direct data (x) prediction -- particularly in high-dimensional settings. However, a formal explanation of why the optimal target depends on the specific properties of the data remains elusive. In this work, we provide a theoretical framework based on a generalized prediction formulation that accommodates arbitrary output targets, of which varepsilon-, v-, and x-prediction are special cases. We derive the analytical relationship between data's geometry and the optimal prediction target, offering a rigorous justification for why x-prediction becomes superior when the ambient dimension significantly exceeds the data's intrinsic dimension. Furthermore, while our theory identifies dimensionality as the governing factor for the optimal prediction target, the intrinsic dimension of manifold-bound data is typically intractable to estimate in practice. To bridge this gap, we propose k-Diff, a framework that employs a data-driven approach to learn the optimal prediction parameter k directly from data, bypassing the need for explicit dimension estimation. Extensive experiments in both latent-space and pixel-space image generation demonstrate that k-Diff consistently outperforms fixed-target baselines across varying architectures and data scales, providing a principled and automated approach to enhancing generative performance.