ChatPaper.aiChatPaper

DiCo: Revitalisierung von ConvNets für skalierbare und effiziente Diffusionsmodellierung

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

May 16, 2025
Autoren: Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang
cs.AI

Zusammenfassung

Diffusion Transformer (DiT), ein vielversprechendes Diffusionsmodell für die visuelle Generierung, zeigt beeindruckende Leistungen, verursacht jedoch erheblichen Rechenaufwand. Interessanterweise zeigt die Analyse vortrainierter DiT-Modelle, dass globales Self-Attention oft redundant ist und hauptsächlich lokale Muster erfasst – was das Potenzial für effizientere Alternativen aufzeigt. In diesem Papier untersuchen wir Faltung (Convolution) als alternativen Baustein für den Aufbau effizienter und ausdrucksstarker Diffusionsmodelle. Die naive Ersetzung von Self-Attention durch Faltung führt jedoch typischerweise zu einer Verschlechterung der Leistung. Unsere Untersuchungen führen diese Leistungslücke auf die höhere Kanalredundanz in ConvNets im Vergleich zu Transformern zurück. Um dies zu beheben, führen wir einen kompakten Kanal-Attentionsmechanismus ein, der die Aktivierung vielfältigerer Kanäle fördert und dadurch die Merkmalsvielfalt verbessert. Dies führt zu Diffusion ConvNet (DiCo), einer Familie von Diffusionsmodellen, die vollständig aus standardmäßigen ConvNet-Modulen aufgebaut sind und starke generative Leistungen mit erheblichen Effizienzgewinnen bieten. Bei klassenspezifischen ImageNet-Benchmarks übertrifft DiCo frühere Diffusionsmodelle sowohl in der Bildqualität als auch in der Generierungsgeschwindigkeit. Bemerkenswerterweise erreicht DiCo-XL einen FID von 2,05 bei 256x256 Auflösung und 2,53 bei 512x512, mit einer 2,7-fachen bzw. 3,1-fachen Beschleunigung gegenüber DiT-XL/2. Darüber hinaus erreicht unser größtes Modell, DiCo-H, mit 1B Parametern einen FID von 1,90 auf ImageNet 256x256 – ohne zusätzliche Überwachung während des Trainings. Code: https://github.com/shallowdream204/DiCo.
English
Diffusion Transformer (DiT), a promising diffusion model for visual generation, demonstrates impressive performance but incurs significant computational overhead. Intriguingly, analysis of pre-trained DiT models reveals that global self-attention is often redundant, predominantly capturing local patterns-highlighting the potential for more efficient alternatives. In this paper, we revisit convolution as an alternative building block for constructing efficient and expressive diffusion models. However, naively replacing self-attention with convolution typically results in degraded performance. Our investigations attribute this performance gap to the higher channel redundancy in ConvNets compared to Transformers. To resolve this, we introduce a compact channel attention mechanism that promotes the activation of more diverse channels, thereby enhancing feature diversity. This leads to Diffusion ConvNet (DiCo), a family of diffusion models built entirely from standard ConvNet modules, offering strong generative performance with significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo outperforms previous diffusion models in both image quality and generation speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53 at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively. Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID of 1.90 on ImageNet 256x256-without any additional supervision during training. Code: https://github.com/shallowdream204/DiCo.

Summary

AI-Generated Summary

PDF62May 22, 2025