ChatPaper.aiChatPaper

Modèles de Diffusion Latente Sans Alias : Amélioration de l'Équivariance par Décalage Fractionnel dans l'Espace Latent de Diffusion

Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

March 12, 2025
Auteurs: Yifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan
cs.AI

Résumé

Les modèles de diffusion latente (LDMs) sont connus pour avoir un processus de génération instable, où même de petites perturbations ou décalages dans le bruit d'entrée peuvent conduire à des résultats significativement différents. Cela limite leur applicabilité dans les scénarios nécessitant des résultats cohérents. Dans ce travail, nous redéfinissons les LDMs pour améliorer leur cohérence en les rendant équivariants par translation. Bien que l'introduction d'opérations d'anti-crénelage puisse partiellement améliorer l'équivariance par translation, des problèmes importants de crénelage et d'incohérence persistent en raison des défis spécifiques aux LDMs, notamment 1) l'amplification du crénelage pendant l'entraînement du VAE et les multiples inférences du U-Net, et 2) les modules d'auto-attention qui manquent intrinsèquement d'équivariance par translation. Pour résoudre ces problèmes, nous redéfinissons les modules d'attention pour les rendre équivariants par translation et proposons une perte d'équivariance qui supprime efficacement la bande passante fréquentielle des caractéristiques dans le domaine continu. Le LDM sans crénelage résultant (AF-LDM) atteint une forte équivariance par translation et est également robuste aux déformations irrégulières. Des expériences approfondies démontrent que l'AF-LDM produit des résultats significativement plus cohérents que le LDM standard dans diverses applications, y compris l'édition vidéo et la traduction d'image à image. Le code est disponible à l'adresse : https://github.com/SingleZombie/AFLDM
English
Latent Diffusion Models (LDMs) are known to have an unstable generation process, where even small perturbations or shifts in the input noise can lead to significantly different outputs. This hinders their applicability in applications requiring consistent results. In this work, we redesign LDMs to enhance consistency by making them shift-equivariant. While introducing anti-aliasing operations can partially improve shift-equivariance, significant aliasing and inconsistency persist due to the unique challenges in LDMs, including 1) aliasing amplification during VAE training and multiple U-Net inferences, and 2) self-attention modules that inherently lack shift-equivariance. To address these issues, we redesign the attention modules to be shift-equivariant and propose an equivariance loss that effectively suppresses the frequency bandwidth of the features in the continuous domain. The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is also robust to irregular warping. Extensive experiments demonstrate that AF-LDM produces significantly more consistent results than vanilla LDM across various applications, including video editing and image-to-image translation. Code is available at: https://github.com/SingleZombie/AFLDM

Summary

AI-Generated Summary

PDF62March 13, 2025