ChatPaper.aiChatPaper

Модели латентного диффузионного синтеза без псевдонимов: улучшение эквивариантности к дробным сдвигам в латентном пространстве диффузии

Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

March 12, 2025
Авторы: Yifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan
cs.AI

Аннотация

Латентные диффузионные модели (LDMs) известны своей нестабильностью в процессе генерации, когда даже небольшие изменения или сдвиги во входном шуме могут привести к существенно различающимся результатам. Это ограничивает их применимость в задачах, требующих согласованных результатов. В данной работе мы перепроектируем LDMs для повышения согласованности, делая их сдвиго-инвариантными. Хотя введение антиалиасинговых операций может частично улучшить сдвиго-инвариантность, значительные искажения и несогласованность сохраняются из-за уникальных проблем в LDMs, включая 1) усиление алиасинга во время обучения VAE и множественных выводов U-Net, а также 2) модули самовнимания, которые по своей природе не обладают сдвиго-инвариантностью. Для решения этих проблем мы перепроектируем модули внимания, делая их сдвиго-инвариантными, и предлагаем функцию потерь на инвариантность, которая эффективно подавляет частотную полосу признаков в непрерывной области. Полученная модель без алиасинга (AF-LDM) демонстрирует высокую сдвиго-инвариантность и устойчивость к нерегулярным искажениям. Многочисленные эксперименты показывают, что AF-LDM обеспечивает значительно более согласованные результаты по сравнению с базовой LDM в различных приложениях, включая редактирование видео и перевод изображений. Код доступен по адресу: https://github.com/SingleZombie/AFLDM.
English
Latent Diffusion Models (LDMs) are known to have an unstable generation process, where even small perturbations or shifts in the input noise can lead to significantly different outputs. This hinders their applicability in applications requiring consistent results. In this work, we redesign LDMs to enhance consistency by making them shift-equivariant. While introducing anti-aliasing operations can partially improve shift-equivariance, significant aliasing and inconsistency persist due to the unique challenges in LDMs, including 1) aliasing amplification during VAE training and multiple U-Net inferences, and 2) self-attention modules that inherently lack shift-equivariance. To address these issues, we redesign the attention modules to be shift-equivariant and propose an equivariance loss that effectively suppresses the frequency bandwidth of the features in the continuous domain. The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is also robust to irregular warping. Extensive experiments demonstrate that AF-LDM produces significantly more consistent results than vanilla LDM across various applications, including video editing and image-to-image translation. Code is available at: https://github.com/SingleZombie/AFLDM

Summary

AI-Generated Summary

PDF62March 13, 2025