DiCo: Het revitaliseren van ConvNets voor schaalbare en efficiënte diffusiemodellering
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling
May 16, 2025
Auteurs: Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang
cs.AI
Samenvatting
Diffusion Transformer (DiT), een veelbelovend diffusiemodel voor visuele generatie, toont indrukwekkende prestaties maar gaat gepaard met aanzienlijke rekenkosten. Interessant genoeg blijkt uit analyses van vooraf getrainde DiT-modellen dat globale zelf-attentie vaak overbodig is, waarbij voornamelijk lokale patronen worden vastgelegd—wat het potentieel voor efficiëntere alternatieven benadrukt. In dit artikel herontdekken we convolutie als een alternatief bouwblok voor het construeren van efficiënte en expressieve diffusiemodellen. Echter, het naïef vervangen van zelf-attentie door convolutie resulteert doorgaans in verminderde prestaties. Onze onderzoeken schrijven dit prestatieverschil toe aan de hogere kanaalredundantie in ConvNets in vergelijking met Transformers. Om dit op te lossen, introduceren we een compact kanaal-attentiemechanisme dat de activering van meer diverse kanalen bevordert, waardoor de kenmerkdiversiteit wordt verbeterd. Dit leidt tot Diffusion ConvNet (DiCo), een familie van diffusiemodellen die volledig zijn opgebouwd uit standaard ConvNet-modules, die sterke generatieve prestaties bieden met aanzienlijke efficiëntiewinsten. Op klasse-conditionele ImageNet-benchmarks overtreft DiCo eerdere diffusiemodellen in zowel beeldkwaliteit als generatiesnelheid. Opmerkelijk is dat DiCo-XL een FID van 2,05 behaalt bij 256x256 resolutie en 2,53 bij 512x512, met een snelheidsverbetering van respectievelijk 2,7x en 3,1x ten opzichte van DiT-XL/2. Bovendien bereikt ons grootste model, DiCo-H, geschaald naar 1B parameters, een FID van 1,90 op ImageNet 256x256—zonder enige aanvullende supervisie tijdens de training. Code: https://github.com/shallowdream204/DiCo.
English
Diffusion Transformer (DiT), a promising diffusion model for visual
generation, demonstrates impressive performance but incurs significant
computational overhead. Intriguingly, analysis of pre-trained DiT models
reveals that global self-attention is often redundant, predominantly capturing
local patterns-highlighting the potential for more efficient alternatives. In
this paper, we revisit convolution as an alternative building block for
constructing efficient and expressive diffusion models. However, naively
replacing self-attention with convolution typically results in degraded
performance. Our investigations attribute this performance gap to the higher
channel redundancy in ConvNets compared to Transformers. To resolve this, we
introduce a compact channel attention mechanism that promotes the activation of
more diverse channels, thereby enhancing feature diversity. This leads to
Diffusion ConvNet (DiCo), a family of diffusion models built entirely from
standard ConvNet modules, offering strong generative performance with
significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo
outperforms previous diffusion models in both image quality and generation
speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53
at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively.
Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID
of 1.90 on ImageNet 256x256-without any additional supervision during training.
Code: https://github.com/shallowdream204/DiCo.