Refinamento de Erros de Condição na Geração Autoregressiva de Imagens com Perda de Difusão

Resumo

Estudos recentes têm explorado modelos autorregressivos para geração de imagens, com resultados promissores, e combinaram modelos de difusão com estruturas autorregressivas para otimizar a geração de imagens através de perdas de difusão. Neste estudo, apresentamos uma análise teórica de modelos de difusão e autorregressivos com perda de difusão, destacando as vantagens destes últimos. Apresentamos uma comparação teórica entre difusão condicional e difusão autorregressiva com perda de difusão, demonstrando que a otimização por desruídos de patches em modelos autorregressivos mitiga efetivamente os erros de condição e conduz a uma distribuição de condição estável. Nossa análise também revela que a geração de condição autorregressiva refina a condição, fazendo com que a influência do erro de condição decaia exponencialmente. Além disso, introduzimos uma nova abordagem de refinamento de condição baseada na teoria do Transporte Ótimo (TO) para abordar a "inconsistência de condição". Demonstramos teoricamente que a formulação do refinamento de condição como um Fluxo Gradiente de Wasserstein garante a convergência para a distribuição de condição ideal, mitigando efetivamente a inconsistência de condição. Experimentos demonstram a superioridade do nosso método em relação a modelos de difusão e autorregressivos com métodos de perda de difusão.

English

Recent studies have explored autoregressive models for image generation, with promising results, and have combined diffusion models with autoregressive frameworks to optimize image generation via diffusion losses. In this study, we present a theoretical analysis of diffusion and autoregressive models with diffusion loss, highlighting the latter's advantages. We present a theoretical comparison of conditional diffusion and autoregressive diffusion with diffusion loss, demonstrating that patch denoising optimization in autoregressive models effectively mitigates condition errors and leads to a stable condition distribution. Our analysis also reveals that autoregressive condition generation refines the condition, causing the condition error influence to decay exponentially. In addition, we introduce a novel condition refinement approach based on Optimal Transport (OT) theory to address ``condition inconsistency''. We theoretically demonstrate that formulating condition refinement as a Wasserstein Gradient Flow ensures convergence toward the ideal condition distribution, effectively mitigating condition inconsistency. Experiments demonstrate the superiority of our method over diffusion and autoregressive models with diffusion loss methods.