Modelli di Diffusione Latente senza Alias: Migliorare l'Equivarianza allo Spostamento Frazionario nello Spazio Latente della Diffusione
Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space
March 12, 2025
Autori: Yifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan
cs.AI
Abstract
I modelli di diffusione latente (LDMs) sono noti per avere un processo di generazione instabile, in cui anche piccole perturbazioni o spostamenti nel rumore di input possono portare a output significativamente diversi. Ciò ne limita l'applicabilità in contesti che richiedono risultati consistenti. In questo lavoro, ridisegniamo gli LDMs per migliorarne la consistenza rendendoli shift-equivarianti. Sebbene l'introduzione di operazioni di anti-aliasing possa parzialmente migliorare la shift-equivarianza, persistono significativi problemi di aliasing e incoerenza a causa delle sfide uniche negli LDMs, tra cui 1) l'amplificazione dell'aliasing durante l'addestramento del VAE e le inferenze multiple della U-Net, e 2) i moduli di self-attention che intrinsecamente mancano di shift-equivarianza. Per affrontare questi problemi, ridisegniamo i moduli di attenzione per renderli shift-equivarianti e proponiamo una funzione di perdita di equivarianza che sopprime efficacemente la larghezza di banda delle frequenze nel dominio continuo. Il risultante LDM senza aliasing (AF-LDM) raggiunge una forte shift-equivarianza ed è anche robusto a deformazioni irregolari. Esperimenti estensivi dimostrano che AF-LDM produce risultati significativamente più consistenti rispetto al classico LDM in varie applicazioni, tra cui l'editing video e la traduzione da immagine a immagine. Il codice è disponibile all'indirizzo: https://github.com/SingleZombie/AFLDM.
English
Latent Diffusion Models (LDMs) are known to have an unstable generation
process, where even small perturbations or shifts in the input noise can lead
to significantly different outputs. This hinders their applicability in
applications requiring consistent results. In this work, we redesign LDMs to
enhance consistency by making them shift-equivariant. While introducing
anti-aliasing operations can partially improve shift-equivariance, significant
aliasing and inconsistency persist due to the unique challenges in LDMs,
including 1) aliasing amplification during VAE training and multiple U-Net
inferences, and 2) self-attention modules that inherently lack
shift-equivariance. To address these issues, we redesign the attention modules
to be shift-equivariant and propose an equivariance loss that effectively
suppresses the frequency bandwidth of the features in the continuous domain.
The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is
also robust to irregular warping. Extensive experiments demonstrate that AF-LDM
produces significantly more consistent results than vanilla LDM across various
applications, including video editing and image-to-image translation. Code is
available at: https://github.com/SingleZombie/AFLDM