Affinamento degli Errori di Condizionamento nella Generazione Autoregressiva di Immagini con Loss di Diffusione

Abstract

Recenti studi hanno esplorato modelli autoregressivi per la generazione di immagini, con risultati promettenti, e hanno combinato modelli di diffusione con framework autoregressivi per ottimizzare la generazione di immagini tramite loss di diffusione. In questo studio, presentiamo un'analisi teorica dei modelli di diffusione e autoregressivi con loss di diffusione, evidenziando i vantaggi di quest'ultimi. Presentiamo un confronto teorico tra diffusione condizionata e diffusione autoregressiva con loss di diffusione, dimostrando che l'ottimizzazione del denoising a patch nei modelli autoregressivi mitiga efficacemente gli errori di condizione e porta a una distribuzione di condizione stabile. La nostra analisi rivela inoltre che la generazione autoregressiva della condizione affina la condizione stessa, facendo sì che l'influenza dell'errore di condizione decada in modo esponenziale. Inoltre, introduciamo un nuovo approccio di raffinamento della condizione basato sulla teoria del Trasporto Ottimo (OT) per affrontare il problema dell'“inconsistenza della condizione”. Dimostriamo teoricamente che formulare il raffinamento della condizione come un Flusso Gradiente di Wasserstein garantisce la convergenza verso la distribuzione di condizione ideale, mitigando efficacemente l'inconsistenza della condizione. Gli esperimenti dimostrano la superiorità del nostro metodo rispetto ai modelli di diffusione e autoregressivi con tecniche di loss di diffusione.

English

Recent studies have explored autoregressive models for image generation, with promising results, and have combined diffusion models with autoregressive frameworks to optimize image generation via diffusion losses. In this study, we present a theoretical analysis of diffusion and autoregressive models with diffusion loss, highlighting the latter's advantages. We present a theoretical comparison of conditional diffusion and autoregressive diffusion with diffusion loss, demonstrating that patch denoising optimization in autoregressive models effectively mitigates condition errors and leads to a stable condition distribution. Our analysis also reveals that autoregressive condition generation refines the condition, causing the condition error influence to decay exponentially. In addition, we introduce a novel condition refinement approach based on Optimal Transport (OT) theory to address ``condition inconsistency''. We theoretically demonstrate that formulating condition refinement as a Wasserstein Gradient Flow ensures convergence toward the ideal condition distribution, effectively mitigating condition inconsistency. Experiments demonstrate the superiority of our method over diffusion and autoregressive models with diffusion loss methods.

Affinamento degli Errori di Condizionamento nella Generazione Autoregressiva di Immagini con Loss di Diffusione

Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss

Abstract

Support