ChatPaper.aiChatPaper

Modelos de Difusión Latente Libres de Alias: Mejorando la Equivariancia de Desplazamiento Fraccional en el Espacio Latente de Difusión

Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

March 12, 2025
Autores: Yifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan
cs.AI

Resumen

Los Modelos de Difusión Latente (LDMs, por sus siglas en inglés) son conocidos por tener un proceso de generación inestable, donde incluso pequeñas perturbaciones o cambios en el ruido de entrada pueden dar lugar a resultados significativamente diferentes. Esto limita su aplicabilidad en tareas que requieren resultados consistentes. En este trabajo, rediseñamos los LDMs para mejorar su consistencia haciéndolos invariantes a desplazamientos (shift-equivariant). Si bien la introducción de operaciones de anti-aliasing puede mejorar parcialmente esta propiedad, persisten problemas significativos de aliasing e inconsistencia debido a los desafíos únicos de los LDMs, incluyendo 1) la amplificación del aliasing durante el entrenamiento del VAE y las múltiples inferencias de la U-Net, y 2) los módulos de auto-atención que, por naturaleza, carecen de invariancia a desplazamientos. Para abordar estos problemas, rediseñamos los módulos de atención para que sean invariantes a desplazamientos y proponemos una pérdida de equivariancia que suprime efectivamente el ancho de banda de las frecuencias de las características en el dominio continuo. El resultado es un LDM libre de aliasing (AF-LDM) que logra una fuerte invariancia a desplazamientos y también es robusto frente a deformaciones irregulares. Experimentos exhaustivos demuestran que el AF-LDM produce resultados significativamente más consistentes que el LDM estándar en diversas aplicaciones, incluyendo edición de video y traducción de imagen a imagen. El código está disponible en: https://github.com/SingleZombie/AFLDM.
English
Latent Diffusion Models (LDMs) are known to have an unstable generation process, where even small perturbations or shifts in the input noise can lead to significantly different outputs. This hinders their applicability in applications requiring consistent results. In this work, we redesign LDMs to enhance consistency by making them shift-equivariant. While introducing anti-aliasing operations can partially improve shift-equivariance, significant aliasing and inconsistency persist due to the unique challenges in LDMs, including 1) aliasing amplification during VAE training and multiple U-Net inferences, and 2) self-attention modules that inherently lack shift-equivariance. To address these issues, we redesign the attention modules to be shift-equivariant and propose an equivariance loss that effectively suppresses the frequency bandwidth of the features in the continuous domain. The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is also robust to irregular warping. Extensive experiments demonstrate that AF-LDM produces significantly more consistent results than vanilla LDM across various applications, including video editing and image-to-image translation. Code is available at: https://github.com/SingleZombie/AFLDM

Summary

AI-Generated Summary

PDF62March 13, 2025