에일리어스 프리 잠재 확산 모델: 확산 잠재 공간의 분수 이동 등변성 향상
Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space
March 12, 2025
저자: Yifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan
cs.AI
초록
잠재 확산 모델(Latent Diffusion Models, LDMs)은 생성 과정이 불안정한 것으로 알려져 있으며, 입력 노이즈의 작은 변화나 이동만으로도 상당히 다른 출력 결과를 초래할 수 있습니다. 이는 일관된 결과를 요구하는 응용 분야에서의 적용 가능성을 제한합니다. 본 연구에서는 LDMs를 재설계하여 이동 등변성(shift-equivariance)을 강화함으로써 일관성을 개선합니다. 안티앨리어싱(anti-aliasing) 연산을 도입하면 부분적으로 이동 등변성을 개선할 수 있지만, VAE 학습 및 다중 U-Net 추론 과정에서의 앨리어싱 증폭과, 본질적으로 이동 등변성이 없는 자기 주의(self-attention) 모듈과 같은 LDMs의 고유한 문제로 인해 상당한 앨리어싱과 불일치가 지속됩니다. 이러한 문제를 해결하기 위해, 우리는 주의 모듈을 재설계하여 이동 등변성을 갖도록 하고, 연속 영역에서 특징의 주파수 대역폭을 효과적으로 억제하는 등변성 손실(equivariance loss)을 제안합니다. 그 결과로 얻은 앨리어싱 없는 LDM(Alias-Free LDM, AF-LDM)은 강력한 이동 등변성을 달성하며 불규칙한 왜곡에도 강건합니다. 다양한 실험을 통해 AF-LDM이 비디오 편집 및 이미지-이미지 변환과 같은 다양한 응용 분야에서 기존 LDM보다 훨씬 더 일관된 결과를 생성함을 입증했습니다. 코드는 https://github.com/SingleZombie/AFLDM에서 확인할 수 있습니다.
English
Latent Diffusion Models (LDMs) are known to have an unstable generation
process, where even small perturbations or shifts in the input noise can lead
to significantly different outputs. This hinders their applicability in
applications requiring consistent results. In this work, we redesign LDMs to
enhance consistency by making them shift-equivariant. While introducing
anti-aliasing operations can partially improve shift-equivariance, significant
aliasing and inconsistency persist due to the unique challenges in LDMs,
including 1) aliasing amplification during VAE training and multiple U-Net
inferences, and 2) self-attention modules that inherently lack
shift-equivariance. To address these issues, we redesign the attention modules
to be shift-equivariant and propose an equivariance loss that effectively
suppresses the frequency bandwidth of the features in the continuous domain.
The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is
also robust to irregular warping. Extensive experiments demonstrate that AF-LDM
produces significantly more consistent results than vanilla LDM across various
applications, including video editing and image-to-image translation. Code is
available at: https://github.com/SingleZombie/AFLDMSummary
AI-Generated Summary