ChatPaper.aiChatPaper

DiCo: Rivitalizzare le ConvNet per una Modellazione di Diffusione Scalabile ed Efficiente

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

May 16, 2025
Autori: Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang
cs.AI

Abstract

Diffusion Transformer (DiT), un promettente modello di diffusione per la generazione visiva, dimostra prestazioni impressionanti ma comporta un significativo sovraccarico computazionale. Curiosamente, l'analisi dei modelli DiT pre-addestrati rivela che l'auto-attenzione globale è spesso ridondante, catturando principalmente pattern locali, evidenziando il potenziale per alternative più efficienti. In questo articolo, rivalutiamo la convoluzione come blocco costitutivo alternativo per costruire modelli di diffusione efficienti ed espressivi. Tuttavia, la semplice sostituzione dell'auto-attenzione con la convoluzione tipicamente comporta un degrado delle prestazioni. Le nostre indagini attribuiscono questo divario di prestazioni alla maggiore ridondanza dei canali nelle ConvNet rispetto ai Transformer. Per risolvere questo problema, introduciamo un meccanismo di attenzione ai canali compatto che promuove l'attivazione di canali più diversificati, migliorando così la diversità delle feature. Questo porta a Diffusion ConvNet (DiCo), una famiglia di modelli di diffusione costruiti interamente da moduli ConvNet standard, che offre forti prestazioni generative con significativi guadagni di efficienza. Sui benchmark condizionati per classe di ImageNet, DiCo supera i precedenti modelli di diffusione sia nella qualità dell'immagine che nella velocità di generazione. In particolare, DiCo-XL raggiunge un FID di 2.05 alla risoluzione 256x256 e 2.53 a 512x512, con un'accelerazione rispettivamente di 2.7x e 3.1x rispetto a DiT-XL/2. Inoltre, il nostro modello più grande, DiCo-H, scalato a 1B parametri, raggiunge un FID di 1.90 su ImageNet 256x256, senza alcuna supervisione aggiuntiva durante l'addestramento. Codice: https://github.com/shallowdream204/DiCo.
English
Diffusion Transformer (DiT), a promising diffusion model for visual generation, demonstrates impressive performance but incurs significant computational overhead. Intriguingly, analysis of pre-trained DiT models reveals that global self-attention is often redundant, predominantly capturing local patterns-highlighting the potential for more efficient alternatives. In this paper, we revisit convolution as an alternative building block for constructing efficient and expressive diffusion models. However, naively replacing self-attention with convolution typically results in degraded performance. Our investigations attribute this performance gap to the higher channel redundancy in ConvNets compared to Transformers. To resolve this, we introduce a compact channel attention mechanism that promotes the activation of more diverse channels, thereby enhancing feature diversity. This leads to Diffusion ConvNet (DiCo), a family of diffusion models built entirely from standard ConvNet modules, offering strong generative performance with significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo outperforms previous diffusion models in both image quality and generation speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53 at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively. Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID of 1.90 on ImageNet 256x256-without any additional supervision during training. Code: https://github.com/shallowdream204/DiCo.
PDF142May 22, 2025