エイリアスフリー潜在拡散モデル:拡散潜在空間の分数シフト等価性の改善
Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space
March 12, 2025
著者: Yifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan
cs.AI
要旨
潜在拡散モデル(LDM)は、生成プロセスが不安定であることが知られており、入力ノイズのわずかな摂動やシフトが大きく異なる出力を引き起こす可能性があります。これは、一貫した結果を必要とするアプリケーションでの適用性を妨げています。本研究では、LDMをシフト等価性を持つように再設計し、一貫性を向上させます。アンチエイリアシング操作を導入することでシフト等価性が部分的に改善されるものの、LDM特有の課題により、依然として重大なエイリアシングと不整合が残ります。これらの課題には、1)VAEのトレーニング中および複数のU-Net推論におけるエイリアシングの増幅、および2)本質的にシフト等価性を欠くセルフアテンションモジュールが含まれます。これらの問題に対処するため、アテンションモジュールをシフト等価性を持つように再設計し、連続領域における特徴の周波数帯域幅を効果的に抑制する等価性損失を提案します。結果として得られるエイリアスフリーLDM(AF-LDM)は、強力なシフト等価性を達成し、不規則なワーピングに対しても頑健です。広範な実験により、AF-LDMがビデオ編集や画像間変換など様々なアプリケーションにおいて、従来のLDMよりも大幅に一貫した結果を生成することが実証されています。コードは以下で公開されています: https://github.com/SingleZombie/AFLDM
English
Latent Diffusion Models (LDMs) are known to have an unstable generation
process, where even small perturbations or shifts in the input noise can lead
to significantly different outputs. This hinders their applicability in
applications requiring consistent results. In this work, we redesign LDMs to
enhance consistency by making them shift-equivariant. While introducing
anti-aliasing operations can partially improve shift-equivariance, significant
aliasing and inconsistency persist due to the unique challenges in LDMs,
including 1) aliasing amplification during VAE training and multiple U-Net
inferences, and 2) self-attention modules that inherently lack
shift-equivariance. To address these issues, we redesign the attention modules
to be shift-equivariant and propose an equivariance loss that effectively
suppresses the frequency bandwidth of the features in the continuous domain.
The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is
also robust to irregular warping. Extensive experiments demonstrate that AF-LDM
produces significantly more consistent results than vanilla LDM across various
applications, including video editing and image-to-image translation. Code is
available at: https://github.com/SingleZombie/AFLDM