ChatPaper.aiChatPaper

Além do U: Tornando Modelos de Difusão Mais Rápidos e Leves

Beyond U: Making Diffusion Models Faster & Lighter

October 31, 2023
Autores: Sergio Calvo-Ordonez, Jiahao Huang, Lipei Zhang, Guang Yang, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero
cs.AI

Resumo

Os modelos de difusão são uma família de modelos generativos que alcançam desempenho recorde em tarefas como síntese de imagens, geração de vídeos e design de moléculas. Apesar de suas capacidades, sua eficiência, especialmente no processo de remoção de ruído reverso, continua sendo um desafio devido a taxas de convergência lentas e altos custos computacionais. Neste trabalho, introduzimos uma abordagem que aproveita sistemas dinâmicos contínuos para projetar uma nova rede de remoção de ruído para modelos de difusão que é mais eficiente em termos de parâmetros, exibe convergência mais rápida e demonstra maior robustez ao ruído. Ao experimentar com modelos de difusão probabilística de remoção de ruído, nosso framework opera com aproximadamente um quarto dos parâmetros e 30% das Operações de Ponto Flutuante (FLOPs) em comparação com U-Nets padrão em Modelos de Difusão Probabilística de Remoção de Ruído (DDPMs). Além disso, nosso modelo é até 70% mais rápido na inferência do que os modelos de base quando medido em condições iguais, enquanto converge para soluções de melhor qualidade.
English
Diffusion models are a family of generative models that yield record-breaking performance in tasks such as image synthesis, video generation, and molecule design. Despite their capabilities, their efficiency, especially in the reverse denoising process, remains a challenge due to slow convergence rates and high computational costs. In this work, we introduce an approach that leverages continuous dynamical systems to design a novel denoising network for diffusion models that is more parameter-efficient, exhibits faster convergence, and demonstrates increased noise robustness. Experimenting with denoising probabilistic diffusion models, our framework operates with approximately a quarter of the parameters and 30% of the Floating Point Operations (FLOPs) compared to standard U-Nets in Denoising Diffusion Probabilistic Models (DDPMs). Furthermore, our model is up to 70% faster in inference than the baseline models when measured in equal conditions while converging to better quality solutions.
PDF121February 7, 2026