ChatPaper.aiChatPaper

Пересмотр предсказаний диффузионных моделей через призму размерности

Revisiting Diffusion Model Predictions Through Dimensionality

January 29, 2026
Авторы: Qing Jin, Chaoyang Wang
cs.AI

Аннотация

Последние достижения в области диффузионных моделей и моделей согласования потоков выявили сдвиг в предпочтительной цели предсказания — переход от предсказания шума (ε) и скорости (v) к прямому предсказанию данных (x), — особенно в высокоразмерных settings. Однако формальное объяснение того, почему оптимальная цель зависит от конкретных свойств данных, остается неуловимым. В данной работе мы предлагаем теоретическую основу, основанную на обобщенной формулировке предсказания, которая допускает произвольные целевые выходы, частными случаями которых являются предсказание ε, v и x. Мы выводим аналитическую зависимость между геометрией данных и оптимальной целью предсказания, предлагая строгое обоснование того, почему предсказание x становится предпочтительнее, когда размерность окружающего пространства существенно превышает внутреннюю размерность данных. Кроме того, хотя наша теория определяет размерность как управляющий фактор для оптимальной цели предсказания, внутренняя размерность данных, лежащих на многообразии, обычно оказывается трудно оценимой на практике. Чтобы преодолеть этот разрыв, мы предлагаем k-Diff — framework, который использует подход, основанный на данных, для непосредственного обучения оптимального параметра предсказания k на основе данных, минуя необходимость явной оценки размерности. Многочисленные эксперименты в области генерации изображений как в латентном пространстве, так и в пространстве пикселей демонстрируют, что k-Diff последовательно превосходит базовые методы с фиксированной целью при различных архитектурах и масштабах данных, предоставляя принципиальный и автоматизированный подход к повышению производительности генеративных моделей.
English
Recent advances in diffusion and flow matching models have highlighted a shift in the preferred prediction target -- moving from noise (varepsilon) and velocity (v) to direct data (x) prediction -- particularly in high-dimensional settings. However, a formal explanation of why the optimal target depends on the specific properties of the data remains elusive. In this work, we provide a theoretical framework based on a generalized prediction formulation that accommodates arbitrary output targets, of which varepsilon-, v-, and x-prediction are special cases. We derive the analytical relationship between data's geometry and the optimal prediction target, offering a rigorous justification for why x-prediction becomes superior when the ambient dimension significantly exceeds the data's intrinsic dimension. Furthermore, while our theory identifies dimensionality as the governing factor for the optimal prediction target, the intrinsic dimension of manifold-bound data is typically intractable to estimate in practice. To bridge this gap, we propose k-Diff, a framework that employs a data-driven approach to learn the optimal prediction parameter k directly from data, bypassing the need for explicit dimension estimation. Extensive experiments in both latent-space and pixel-space image generation demonstrate that k-Diff consistently outperforms fixed-target baselines across varying architectures and data scales, providing a principled and automated approach to enhancing generative performance.
PDF42February 3, 2026