ChatPaper.aiChatPaper

DiCo: 확장 가능하고 효율적인 확산 모델링을 위한 ConvNet의 재활성화

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

May 16, 2025
저자: Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang
cs.AI

초록

Diffusion Transformer (DiT)는 시각적 생성 분야에서 유망한 확산 모델로, 인상적인 성능을 보여주지만 상당한 계산 비용을 초래합니다. 흥미롭게도, 사전 학습된 DiT 모델을 분석한 결과, 전역적 자기 주의(global self-attention)가 종종 불필요하며 주로 지역적 패턴을 포착하는 것으로 나타났습니다. 이는 더 효율적인 대안의 가능성을 강조합니다. 본 논문에서는 효율적이고 표현력이 뛰어난 확산 모델을 구축하기 위한 대안적 구성 요소로서 컨볼루션을 재검토합니다. 그러나 자기 주의를 단순히 컨볼루션으로 대체할 경우 일반적으로 성능 저하가 발생합니다. 우리의 연구에 따르면, 이러한 성능 격차는 Transformers에 비해 ConvNets에서 채널 중복성이 더 높기 때문입니다. 이를 해결하기 위해, 우리는 더 다양한 채널의 활성화를 촉진하여 특징 다양성을 향상시키는 간결한 채널 주의 메커니즘을 도입합니다. 이로 인해 표준 ConvNet 모듈로만 구성된 확산 모델인 Diffusion ConvNet (DiCo) 제품군이 탄생했습니다. DiCo는 강력한 생성 성능과 상당한 효율성 향상을 제공합니다. 클래스 조건부 ImageNet 벤치마크에서 DiCo는 이미지 품질과 생성 속도 모두에서 이전의 확산 모델을 능가합니다. 특히, DiCo-XL은 256x256 해상도에서 FID 2.05, 512x512 해상도에서 FID 2.53을 달성하며, 각각 DiT-XL/2 대비 2.7배 및 3.1배의 속도 향상을 보여줍니다. 더 나아가, 우리의 가장 큰 모델인 DiCo-H는 1B 파라미터로 확장되어, 훈련 중 추가적인 감독 없이도 ImageNet 256x256에서 FID 1.90을 달성했습니다. 코드: https://github.com/shallowdream204/DiCo.
English
Diffusion Transformer (DiT), a promising diffusion model for visual generation, demonstrates impressive performance but incurs significant computational overhead. Intriguingly, analysis of pre-trained DiT models reveals that global self-attention is often redundant, predominantly capturing local patterns-highlighting the potential for more efficient alternatives. In this paper, we revisit convolution as an alternative building block for constructing efficient and expressive diffusion models. However, naively replacing self-attention with convolution typically results in degraded performance. Our investigations attribute this performance gap to the higher channel redundancy in ConvNets compared to Transformers. To resolve this, we introduce a compact channel attention mechanism that promotes the activation of more diverse channels, thereby enhancing feature diversity. This leads to Diffusion ConvNet (DiCo), a family of diffusion models built entirely from standard ConvNet modules, offering strong generative performance with significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo outperforms previous diffusion models in both image quality and generation speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53 at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively. Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID of 1.90 on ImageNet 256x256-without any additional supervision during training. Code: https://github.com/shallowdream204/DiCo.

Summary

AI-Generated Summary

PDF62May 22, 2025