Modelli di Diffusione Latente senza Alias: Migliorare l'Equivarianza allo Spostamento Frazionario nello Spazio Latente della Diffusione

Abstract

I modelli di diffusione latente (LDMs) sono noti per avere un processo di generazione instabile, in cui anche piccole perturbazioni o spostamenti nel rumore di input possono portare a output significativamente diversi. Ciò ne limita l'applicabilità in contesti che richiedono risultati consistenti. In questo lavoro, ridisegniamo gli LDMs per migliorarne la consistenza rendendoli shift-equivarianti. Sebbene l'introduzione di operazioni di anti-aliasing possa parzialmente migliorare la shift-equivarianza, persistono significativi problemi di aliasing e incoerenza a causa delle sfide uniche negli LDMs, tra cui 1) l'amplificazione dell'aliasing durante l'addestramento del VAE e le inferenze multiple della U-Net, e 2) i moduli di self-attention che intrinsecamente mancano di shift-equivarianza. Per affrontare questi problemi, ridisegniamo i moduli di attenzione per renderli shift-equivarianti e proponiamo una funzione di perdita di equivarianza che sopprime efficacemente la larghezza di banda delle frequenze nel dominio continuo. Il risultante LDM senza aliasing (AF-LDM) raggiunge una forte shift-equivarianza ed è anche robusto a deformazioni irregolari. Esperimenti estensivi dimostrano che AF-LDM produce risultati significativamente più consistenti rispetto al classico LDM in varie applicazioni, tra cui l'editing video e la traduzione da immagine a immagine. Il codice è disponibile all'indirizzo: https://github.com/SingleZombie/AFLDM.

English

Latent Diffusion Models (LDMs) are known to have an unstable generation process, where even small perturbations or shifts in the input noise can lead to significantly different outputs. This hinders their applicability in applications requiring consistent results. In this work, we redesign LDMs to enhance consistency by making them shift-equivariant. While introducing anti-aliasing operations can partially improve shift-equivariance, significant aliasing and inconsistency persist due to the unique challenges in LDMs, including 1) aliasing amplification during VAE training and multiple U-Net inferences, and 2) self-attention modules that inherently lack shift-equivariance. To address these issues, we redesign the attention modules to be shift-equivariant and propose an equivariance loss that effectively suppresses the frequency bandwidth of the features in the continuous domain. The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is also robust to irregular warping. Extensive experiments demonstrate that AF-LDM produces significantly more consistent results than vanilla LDM across various applications, including video editing and image-to-image translation. Code is available at: https://github.com/SingleZombie/AFLDM

Modelli di Diffusione Latente senza Alias: Migliorare l'Equivarianza allo Spostamento Frazionario nello Spazio Latente della Diffusione

Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

Abstract

Support