DiCo : Revitalisation des ConvNets pour une modélisation de diffusion évolutive et efficace
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling
May 16, 2025
Auteurs: Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang
cs.AI
Résumé
Le Diffusion Transformer (DiT), un modèle de diffusion prometteur pour la génération visuelle, démontre des performances impressionnantes mais engendre un coût computationnel significatif. De manière intrigante, l'analyse des modèles DiT pré-entraînés révèle que l'auto-attention globale est souvent redondante, capturant principalement des motifs locaux, ce qui met en lumière le potentiel d'alternatives plus efficaces. Dans cet article, nous revisitons la convolution comme un bloc de construction alternatif pour créer des modèles de diffusion à la fois efficaces et expressifs. Cependant, remplacer naïvement l'auto-attention par la convolution entraîne généralement une dégradation des performances. Nos investigations attribuent cet écart de performance à la redondance accrue des canaux dans les ConvNets par rapport aux Transformers. Pour résoudre ce problème, nous introduisons un mécanisme d'attention compact sur les canaux qui favorise l'activation de canaux plus diversifiés, améliorant ainsi la diversité des caractéristiques. Cela donne naissance à Diffusion ConvNet (DiCo), une famille de modèles de diffusion entièrement construits à partir de modules ConvNet standards, offrant de solides performances génératives avec des gains d'efficacité significatifs. Sur les benchmarks conditionnels par classe d'ImageNet, DiCo surpasse les modèles de diffusion précédents à la fois en qualité d'image et en vitesse de génération. Notamment, DiCo-XL atteint un FID de 2,05 à une résolution de 256x256 et de 2,53 à 512x512, avec une accélération de 2,7x et 3,1x par rapport à DiT-XL/2, respectivement. De plus, notre plus grand modèle, DiCo-H, avec 1 milliard de paramètres, atteint un FID de 1,90 sur ImageNet 256x256, sans aucune supervision supplémentaire pendant l'entraînement. Code : https://github.com/shallowdream204/DiCo.
English
Diffusion Transformer (DiT), a promising diffusion model for visual
generation, demonstrates impressive performance but incurs significant
computational overhead. Intriguingly, analysis of pre-trained DiT models
reveals that global self-attention is often redundant, predominantly capturing
local patterns-highlighting the potential for more efficient alternatives. In
this paper, we revisit convolution as an alternative building block for
constructing efficient and expressive diffusion models. However, naively
replacing self-attention with convolution typically results in degraded
performance. Our investigations attribute this performance gap to the higher
channel redundancy in ConvNets compared to Transformers. To resolve this, we
introduce a compact channel attention mechanism that promotes the activation of
more diverse channels, thereby enhancing feature diversity. This leads to
Diffusion ConvNet (DiCo), a family of diffusion models built entirely from
standard ConvNet modules, offering strong generative performance with
significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo
outperforms previous diffusion models in both image quality and generation
speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53
at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively.
Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID
of 1.90 on ImageNet 256x256-without any additional supervision during training.
Code: https://github.com/shallowdream204/DiCo.Summary
AI-Generated Summary