Revisión de las Predicciones de Modelos de Difusión a Través de la Dimensionalidad
Revisiting Diffusion Model Predictions Through Dimensionality
January 29, 2026
Autores: Qing Jin, Chaoyang Wang
cs.AI
Resumen
Los recientes avances en modelos de difusión y emparejamiento de flujos han destacado un cambio en el objetivo de predicción preferido —pasando de la predicción de ruido (ε) y velocidad (v) a la predicción directa de datos (x)—, particularmente en entornos de alta dimensionalidad. Sin embargo, una explicación formal de por qué el objetivo óptimo depende de las propiedades específicas de los datos sigue siendo esquiva. En este trabajo, proporcionamos un marco teórico basado en una formulación de predicción generalizada que admite objetivos de salida arbitrarios, de los cuales la predicción-ε, -v y -x son casos especiales. Derivamos la relación analítica entre la geometría de los datos y el objetivo de predicción óptimo, ofreciendo una justificación rigurosa de por qué la predicción-x se vuelve superior cuando la dimensión ambiental excede significativamente la dimensión intrínseca de los datos. Además, si bien nuestra teoría identifica la dimensionalidad como el factor rector para el objetivo de predicción óptimo, la dimensión intrínseca de los datos confinados en variedades suele ser intratable de estimar en la práctica. Para salvar esta brecha, proponemos k-Diff, un marco que emplea un enfoque basado en datos para aprender el parámetro de predicción óptimo k directamente de los datos, evitando la necesidad de una estimación explícita de la dimensión. Experimentos exhaustivos en generación de imágenes tanto en espacio latente como en espacio de píxeles demuestran que k-Diff supera consistentemente los baselines de objetivo fijo en diversas arquitecturas y escalas de datos, proporcionando un enfoque automatizado y fundamentado para mejorar el rendimiento generativo.
English
Recent advances in diffusion and flow matching models have highlighted a shift in the preferred prediction target -- moving from noise (varepsilon) and velocity (v) to direct data (x) prediction -- particularly in high-dimensional settings. However, a formal explanation of why the optimal target depends on the specific properties of the data remains elusive. In this work, we provide a theoretical framework based on a generalized prediction formulation that accommodates arbitrary output targets, of which varepsilon-, v-, and x-prediction are special cases. We derive the analytical relationship between data's geometry and the optimal prediction target, offering a rigorous justification for why x-prediction becomes superior when the ambient dimension significantly exceeds the data's intrinsic dimension. Furthermore, while our theory identifies dimensionality as the governing factor for the optimal prediction target, the intrinsic dimension of manifold-bound data is typically intractable to estimate in practice. To bridge this gap, we propose k-Diff, a framework that employs a data-driven approach to learn the optimal prediction parameter k directly from data, bypassing the need for explicit dimension estimation. Extensive experiments in both latent-space and pixel-space image generation demonstrate that k-Diff consistently outperforms fixed-target baselines across varying architectures and data scales, providing a principled and automated approach to enhancing generative performance.