Modèles de Diffusion Latente Sans Alias : Amélioration de l'Équivariance par Décalage Fractionnel dans l'Espace Latent de Diffusion
Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space
March 12, 2025
Auteurs: Yifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan
cs.AI
Résumé
Les modèles de diffusion latente (LDMs) sont connus pour avoir un processus de génération instable, où même de petites perturbations ou décalages dans le bruit d'entrée peuvent conduire à des résultats significativement différents. Cela limite leur applicabilité dans les scénarios nécessitant des résultats cohérents. Dans ce travail, nous redéfinissons les LDMs pour améliorer leur cohérence en les rendant équivariants par translation. Bien que l'introduction d'opérations d'anti-crénelage puisse partiellement améliorer l'équivariance par translation, des problèmes importants de crénelage et d'incohérence persistent en raison des défis spécifiques aux LDMs, notamment 1) l'amplification du crénelage pendant l'entraînement du VAE et les multiples inférences du U-Net, et 2) les modules d'auto-attention qui manquent intrinsèquement d'équivariance par translation. Pour résoudre ces problèmes, nous redéfinissons les modules d'attention pour les rendre équivariants par translation et proposons une perte d'équivariance qui supprime efficacement la bande passante fréquentielle des caractéristiques dans le domaine continu. Le LDM sans crénelage résultant (AF-LDM) atteint une forte équivariance par translation et est également robuste aux déformations irrégulières. Des expériences approfondies démontrent que l'AF-LDM produit des résultats significativement plus cohérents que le LDM standard dans diverses applications, y compris l'édition vidéo et la traduction d'image à image. Le code est disponible à l'adresse : https://github.com/SingleZombie/AFLDM
English
Latent Diffusion Models (LDMs) are known to have an unstable generation
process, where even small perturbations or shifts in the input noise can lead
to significantly different outputs. This hinders their applicability in
applications requiring consistent results. In this work, we redesign LDMs to
enhance consistency by making them shift-equivariant. While introducing
anti-aliasing operations can partially improve shift-equivariance, significant
aliasing and inconsistency persist due to the unique challenges in LDMs,
including 1) aliasing amplification during VAE training and multiple U-Net
inferences, and 2) self-attention modules that inherently lack
shift-equivariance. To address these issues, we redesign the attention modules
to be shift-equivariant and propose an equivariance loss that effectively
suppresses the frequency bandwidth of the features in the continuous domain.
The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is
also robust to irregular warping. Extensive experiments demonstrate that AF-LDM
produces significantly more consistent results than vanilla LDM across various
applications, including video editing and image-to-image translation. Code is
available at: https://github.com/SingleZombie/AFLDMSummary
AI-Generated Summary