拡散モデルの予測を次元性を通して再検討する
Revisiting Diffusion Model Predictions Through Dimensionality
January 29, 2026
著者: Qing Jin, Chaoyang Wang
cs.AI
要旨
拡散モデルとフローマッチングモデルにおける最近の進展は、特に高次元設定において、予測ターゲットの優先順位がノイズ(ε)や速度(v)から直接データ(x)の予測へと移行していることを示している。しかし、最適なターゲットがデータの特定の性質に依存する理由についての形式的な説明は未だ確立されていない。本研究では、任意の出力ターゲットを包含する一般化された予測定式化に基づく理論的枠組みを提案する。ここでε予測、v予測、x予測は特殊なケースとなる。データの幾何学的構造と最適な予測ターゲットの間の解析的関係を導出し、周囲の次元がデータの本質的次元を大幅に上回る場合にx予測が優位となる理由を厳密に正当化する。さらに、我々の理論が次元性を最適予測ターゲットの支配的要因と特定する一方で、多様体上に制約されたデータの本質的次元は、実際には推定が一般に困難である。この隔たりを埋めるため、明示的な次元推定を必要とせず、データから直接最適な予測パラメータkを学習するデータ駆動型アプローチを採用するフレームワークk-Diffを提案する。潜在空間及び画素空間における画像生成の大規模な実験により、k-Diffが様々なアーキテクチャとデータ規模にわたって固定ターゲットのベースラインを一貫して上回り、生成性能を向上させる原理的かつ自動化されたアプローチを提供することを実証する。
English
Recent advances in diffusion and flow matching models have highlighted a shift in the preferred prediction target -- moving from noise (varepsilon) and velocity (v) to direct data (x) prediction -- particularly in high-dimensional settings. However, a formal explanation of why the optimal target depends on the specific properties of the data remains elusive. In this work, we provide a theoretical framework based on a generalized prediction formulation that accommodates arbitrary output targets, of which varepsilon-, v-, and x-prediction are special cases. We derive the analytical relationship between data's geometry and the optimal prediction target, offering a rigorous justification for why x-prediction becomes superior when the ambient dimension significantly exceeds the data's intrinsic dimension. Furthermore, while our theory identifies dimensionality as the governing factor for the optimal prediction target, the intrinsic dimension of manifold-bound data is typically intractable to estimate in practice. To bridge this gap, we propose k-Diff, a framework that employs a data-driven approach to learn the optimal prediction parameter k directly from data, bypassing the need for explicit dimension estimation. Extensive experiments in both latent-space and pixel-space image generation demonstrate that k-Diff consistently outperforms fixed-target baselines across varying architectures and data scales, providing a principled and automated approach to enhancing generative performance.