DiCo: Revitalizando ConvNets para Modelagem de Difusão Escalável e Eficiente
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling
May 16, 2025
Autores: Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang
cs.AI
Resumo
O Diffusion Transformer (DiT), um promissor modelo de difusão para geração visual, demonstra desempenho impressionante, mas incorre em um custo computacional significativo. Curiosamente, a análise de modelos DiT pré-treinados revela que a auto-atenção global é frequentemente redundante, capturando predominantemente padrões locais, o que destaca o potencial para alternativas mais eficientes. Neste artigo, revisitamos a convolução como um bloco de construção alternativo para a criação de modelos de difusão eficientes e expressivos. No entanto, a substituição ingênua da auto-atenção por convolução geralmente resulta em desempenho degradado. Nossas investigações atribuem essa lacuna de desempenho à maior redundância de canais em ConvNets em comparação com Transformers. Para resolver isso, introduzimos um mecanismo compacto de atenção por canal que promove a ativação de canais mais diversos, aumentando assim a diversidade de características. Isso leva ao Diffusion ConvNet (DiCo), uma família de modelos de difusão construídos inteiramente a partir de módulos padrão de ConvNet, oferecendo forte desempenho gerativo com ganhos significativos de eficiência. Em benchmarks de ImageNet condicionados por classe, o DiCo supera modelos de difusão anteriores tanto em qualidade de imagem quanto em velocidade de geração. Notavelmente, o DiCo-XL alcança um FID de 2,05 em resolução 256x256 e 2,53 em 512x512, com uma aceleração de 2,7x e 3,1x em relação ao DiT-XL/2, respectivamente. Além disso, nosso maior modelo, o DiCo-H, escalado para 1B de parâmetros, atinge um FID de 1,90 no ImageNet 256x256—sem qualquer supervisão adicional durante o treinamento. Código: https://github.com/shallowdream204/DiCo.
English
Diffusion Transformer (DiT), a promising diffusion model for visual
generation, demonstrates impressive performance but incurs significant
computational overhead. Intriguingly, analysis of pre-trained DiT models
reveals that global self-attention is often redundant, predominantly capturing
local patterns-highlighting the potential for more efficient alternatives. In
this paper, we revisit convolution as an alternative building block for
constructing efficient and expressive diffusion models. However, naively
replacing self-attention with convolution typically results in degraded
performance. Our investigations attribute this performance gap to the higher
channel redundancy in ConvNets compared to Transformers. To resolve this, we
introduce a compact channel attention mechanism that promotes the activation of
more diverse channels, thereby enhancing feature diversity. This leads to
Diffusion ConvNet (DiCo), a family of diffusion models built entirely from
standard ConvNet modules, offering strong generative performance with
significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo
outperforms previous diffusion models in both image quality and generation
speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53
at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively.
Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID
of 1.90 on ImageNet 256x256-without any additional supervision during training.
Code: https://github.com/shallowdream204/DiCo.