Más allá de U: Haciendo que los modelos de difusión sean más rápidos y ligeros
Beyond U: Making Diffusion Models Faster & Lighter
October 31, 2023
Autores: Sergio Calvo-Ordonez, Jiahao Huang, Lipei Zhang, Guang Yang, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero
cs.AI
Resumen
Los modelos de difusión son una familia de modelos generativos que ofrecen un rendimiento sin precedentes en tareas como la síntesis de imágenes, la generación de videos y el diseño de moléculas. A pesar de sus capacidades, su eficiencia, especialmente en el proceso inverso de eliminación de ruido, sigue siendo un desafío debido a las tasas de convergencia lentas y los altos costos computacionales. En este trabajo, presentamos un enfoque que aprovecha sistemas dinámicos continuos para diseñar una red de eliminación de ruido novedosa para modelos de difusión que es más eficiente en términos de parámetros, exhibe una convergencia más rápida y demuestra una mayor robustez frente al ruido. Al experimentar con modelos de difusión probabilística de eliminación de ruido, nuestro marco opera con aproximadamente un cuarto de los parámetros y el 30% de las operaciones de punto flotante (FLOPs) en comparación con las U-Nets estándar en Modelos de Difusión Probabilística de Eliminación de Ruido (DDPMs). Además, nuestro modelo es hasta un 70% más rápido en inferencia que los modelos de referencia cuando se mide en condiciones iguales, mientras converge a soluciones de mejor calidad.
English
Diffusion models are a family of generative models that yield record-breaking
performance in tasks such as image synthesis, video generation, and molecule
design. Despite their capabilities, their efficiency, especially in the reverse
denoising process, remains a challenge due to slow convergence rates and high
computational costs. In this work, we introduce an approach that leverages
continuous dynamical systems to design a novel denoising network for diffusion
models that is more parameter-efficient, exhibits faster convergence, and
demonstrates increased noise robustness. Experimenting with denoising
probabilistic diffusion models, our framework operates with approximately a
quarter of the parameters and 30% of the Floating Point Operations (FLOPs)
compared to standard U-Nets in Denoising Diffusion Probabilistic Models
(DDPMs). Furthermore, our model is up to 70% faster in inference than the
baseline models when measured in equal conditions while converging to better
quality solutions.