Revisitando as Previsões de Modelos de Difusão Através da Dimensionalidade

Resumo

Avanços recentes em modelos de difusão e *flow matching* destacaram uma mudança no alvo de previsão preferido – passando da previsão de ruído (ε) e velocidade (v) para a previsão direta dos dados (x) – particularmente em configurações de alta dimensionalidade. No entanto, uma explicação formal de por que o alvo ideal depende das propriedades específicas dos dados permanece indefinida. Neste trabalho, fornecemos uma estrutura teórica baseada numa formulação de previsão generalizada que acomoda alvos de saída arbitrários, dos quais a previsão de ε, v e x são casos especiais. Derivamos a relação analítica entre a geometria dos dados e o alvo de previsão ótimo, oferecendo uma justificação rigorosa para a superioridade da previsão de x quando a dimensão ambiente excede significativamente a dimensão intrínseca dos dados. Além disso, embora a nossa teoria identifique a dimensionalidade como o fator governante para o alvo de previsão ótimo, a dimensão intrínseca de dados confinados a uma variedade é tipicamente intratável de estimar na prática. Para colmatar esta lacuna, propomos o k-Diff, uma estrutura que emprega uma abordagem orientada por dados para aprender o parâmetro de previsão ótimo k diretamente a partir dos dados, contornando a necessidade de estimação explícita da dimensão. Experiências extensivas em geração de imagens no espaço latente e no espaço de píxeis demonstram que o k-Diff supera consistentemente as linhas de base com alvos fixos em várias arquiteturas e escalas de dados, fornecendo uma abordagem fundamentada e automatizada para melhorar o desempenho generativo.

English

Recent advances in diffusion and flow matching models have highlighted a shift in the preferred prediction target -- moving from noise (varepsilon) and velocity (v) to direct data (x) prediction -- particularly in high-dimensional settings. However, a formal explanation of why the optimal target depends on the specific properties of the data remains elusive. In this work, we provide a theoretical framework based on a generalized prediction formulation that accommodates arbitrary output targets, of which varepsilon-, v-, and x-prediction are special cases. We derive the analytical relationship between data's geometry and the optimal prediction target, offering a rigorous justification for why x-prediction becomes superior when the ambient dimension significantly exceeds the data's intrinsic dimension. Furthermore, while our theory identifies dimensionality as the governing factor for the optimal prediction target, the intrinsic dimension of manifold-bound data is typically intractable to estimate in practice. To bridge this gap, we propose k-Diff, a framework that employs a data-driven approach to learn the optimal prediction parameter k directly from data, bypassing the need for explicit dimension estimation. Extensive experiments in both latent-space and pixel-space image generation demonstrate that k-Diff consistently outperforms fixed-target baselines across varying architectures and data scales, providing a principled and automated approach to enhancing generative performance.

Revisitando as Previsões de Modelos de Difusão Através da Dimensionalidade

Revisiting Diffusion Model Predictions Through Dimensionality

Resumo

Support