ChatPaper.aiChatPaper

에일리어스 프리 잠재 확산 모델: 확산 잠재 공간의 분수 이동 등변성 향상

Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

March 12, 2025
저자: Yifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan
cs.AI

초록

잠재 확산 모델(Latent Diffusion Models, LDMs)은 생성 과정이 불안정한 것으로 알려져 있으며, 입력 노이즈의 작은 변화나 이동만으로도 상당히 다른 출력 결과를 초래할 수 있습니다. 이는 일관된 결과를 요구하는 응용 분야에서의 적용 가능성을 제한합니다. 본 연구에서는 LDMs를 재설계하여 이동 등변성(shift-equivariance)을 강화함으로써 일관성을 개선합니다. 안티앨리어싱(anti-aliasing) 연산을 도입하면 부분적으로 이동 등변성을 개선할 수 있지만, VAE 학습 및 다중 U-Net 추론 과정에서의 앨리어싱 증폭과, 본질적으로 이동 등변성이 없는 자기 주의(self-attention) 모듈과 같은 LDMs의 고유한 문제로 인해 상당한 앨리어싱과 불일치가 지속됩니다. 이러한 문제를 해결하기 위해, 우리는 주의 모듈을 재설계하여 이동 등변성을 갖도록 하고, 연속 영역에서 특징의 주파수 대역폭을 효과적으로 억제하는 등변성 손실(equivariance loss)을 제안합니다. 그 결과로 얻은 앨리어싱 없는 LDM(Alias-Free LDM, AF-LDM)은 강력한 이동 등변성을 달성하며 불규칙한 왜곡에도 강건합니다. 다양한 실험을 통해 AF-LDM이 비디오 편집 및 이미지-이미지 변환과 같은 다양한 응용 분야에서 기존 LDM보다 훨씬 더 일관된 결과를 생성함을 입증했습니다. 코드는 https://github.com/SingleZombie/AFLDM에서 확인할 수 있습니다.
English
Latent Diffusion Models (LDMs) are known to have an unstable generation process, where even small perturbations or shifts in the input noise can lead to significantly different outputs. This hinders their applicability in applications requiring consistent results. In this work, we redesign LDMs to enhance consistency by making them shift-equivariant. While introducing anti-aliasing operations can partially improve shift-equivariance, significant aliasing and inconsistency persist due to the unique challenges in LDMs, including 1) aliasing amplification during VAE training and multiple U-Net inferences, and 2) self-attention modules that inherently lack shift-equivariance. To address these issues, we redesign the attention modules to be shift-equivariant and propose an equivariance loss that effectively suppresses the frequency bandwidth of the features in the continuous domain. The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is also robust to irregular warping. Extensive experiments demonstrate that AF-LDM produces significantly more consistent results than vanilla LDM across various applications, including video editing and image-to-image translation. Code is available at: https://github.com/SingleZombie/AFLDM

Summary

AI-Generated Summary

PDF62March 13, 2025