DiCo: Revitalizando ConvNets para Modelagem de Difusão Escalável e Eficiente

Resumo

O Diffusion Transformer (DiT), um promissor modelo de difusão para geração visual, demonstra desempenho impressionante, mas incorre em um custo computacional significativo. Curiosamente, a análise de modelos DiT pré-treinados revela que a auto-atenção global é frequentemente redundante, capturando predominantemente padrões locais, o que destaca o potencial para alternativas mais eficientes. Neste artigo, revisitamos a convolução como um bloco de construção alternativo para a criação de modelos de difusão eficientes e expressivos. No entanto, a substituição ingênua da auto-atenção por convolução geralmente resulta em desempenho degradado. Nossas investigações atribuem essa lacuna de desempenho à maior redundância de canais em ConvNets em comparação com Transformers. Para resolver isso, introduzimos um mecanismo compacto de atenção por canal que promove a ativação de canais mais diversos, aumentando assim a diversidade de características. Isso leva ao Diffusion ConvNet (DiCo), uma família de modelos de difusão construídos inteiramente a partir de módulos padrão de ConvNet, oferecendo forte desempenho gerativo com ganhos significativos de eficiência. Em benchmarks de ImageNet condicionados por classe, o DiCo supera modelos de difusão anteriores tanto em qualidade de imagem quanto em velocidade de geração. Notavelmente, o DiCo-XL alcança um FID de 2,05 em resolução 256x256 e 2,53 em 512x512, com uma aceleração de 2,7x e 3,1x em relação ao DiT-XL/2, respectivamente. Além disso, nosso maior modelo, o DiCo-H, escalado para 1B de parâmetros, atinge um FID de 1,90 no ImageNet 256x256—sem qualquer supervisão adicional durante o treinamento. Código: https://github.com/shallowdream204/DiCo.

English

Diffusion Transformer (DiT), a promising diffusion model for visual generation, demonstrates impressive performance but incurs significant computational overhead. Intriguingly, analysis of pre-trained DiT models reveals that global self-attention is often redundant, predominantly capturing local patterns-highlighting the potential for more efficient alternatives. In this paper, we revisit convolution as an alternative building block for constructing efficient and expressive diffusion models. However, naively replacing self-attention with convolution typically results in degraded performance. Our investigations attribute this performance gap to the higher channel redundancy in ConvNets compared to Transformers. To resolve this, we introduce a compact channel attention mechanism that promotes the activation of more diverse channels, thereby enhancing feature diversity. This leads to Diffusion ConvNet (DiCo), a family of diffusion models built entirely from standard ConvNet modules, offering strong generative performance with significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo outperforms previous diffusion models in both image quality and generation speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53 at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively. Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID of 1.90 on ImageNet 256x256-without any additional supervision during training. Code: https://github.com/shallowdream204/DiCo.

DiCo: Revitalizando ConvNets para Modelagem de Difusão Escalável e Eficiente

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

Resumo

Support