확산 모델 예측의 차원성 관점에서 재고찰
Revisiting Diffusion Model Predictions Through Dimensionality
January 29, 2026
저자: Qing Jin, Chaoyang Wang
cs.AI
초록
확산 및 흐름 매칭 모델의 최근 발전은 예측 대상 선호도의 변화, 특히 고차원 설정에서 노이즈(ε) 및 속도(v) 예측에서 직접 데이터(x) 예측으로의 전환을 부각시켜 왔습니다. 그러나 최적의 대상이 데이터의 특정 속성에 따라 달라지는 이유에 대한 공식적인 설명은 아직 부족한 상황입니다. 본 연구에서는 ε-, v-, x-예측을 특수 사례로 포함하는 임의의 출력 대상을 수용하는 일반화된 예측 공식을 기반으로 한 이론적 프레임워크를 제시합니다. 우리는 데이터의 기하학적 구조와 최적 예측 대상 간의 분석적 관계를 도출하여, 주변 차원이 데이터의 내재 차원을 크게 초과할 때 x-예측이 더 우수해지는 이유에 대한 엄밀한 근거를 제공합니다. 더 나아가, 우리의 이론이 최적 예측 대상의 지배적 요인으로 차원성을 규명하지만, 다양체에 제한된 데이터의 내재 차원은 실제로 추정하기 typically 어렵습니다. 이러한 간극을 해소하기 위해, 우리는 명시적 차원 추정 없이 데이터로부터 직접 최적 예측 매개변수 k를 학습하는 데이터 주도 방식을 채택한 k-Diff 프레임워크를 제안합니다. 잠재 공간 및 픽셀 공간 이미지 생성에서의 광범위한 실험을 통해 k-Diff가 다양한 아키텍처와 데이터 규모에 걸쳐 고정 대상 기준선을 지속적으로 능가함을 입증하며, 생성 성능 향상을 위한 원칙적이고 자동화된 접근법을 제공합니다.
English
Recent advances in diffusion and flow matching models have highlighted a shift in the preferred prediction target -- moving from noise (varepsilon) and velocity (v) to direct data (x) prediction -- particularly in high-dimensional settings. However, a formal explanation of why the optimal target depends on the specific properties of the data remains elusive. In this work, we provide a theoretical framework based on a generalized prediction formulation that accommodates arbitrary output targets, of which varepsilon-, v-, and x-prediction are special cases. We derive the analytical relationship between data's geometry and the optimal prediction target, offering a rigorous justification for why x-prediction becomes superior when the ambient dimension significantly exceeds the data's intrinsic dimension. Furthermore, while our theory identifies dimensionality as the governing factor for the optimal prediction target, the intrinsic dimension of manifold-bound data is typically intractable to estimate in practice. To bridge this gap, we propose k-Diff, a framework that employs a data-driven approach to learn the optimal prediction parameter k directly from data, bypassing the need for explicit dimension estimation. Extensive experiments in both latent-space and pixel-space image generation demonstrate that k-Diff consistently outperforms fixed-target baselines across varying architectures and data scales, providing a principled and automated approach to enhancing generative performance.