DiCo: Возрождение сверточных сетей для масштабируемого и эффективного моделирования диффузии
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling
May 16, 2025
Авторы: Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang
cs.AI
Аннотация
Diffusion Transformer (DiT), перспективная диффузионная модель для визуальной генерации, демонстрирует впечатляющие результаты, но требует значительных вычислительных ресурсов. Интересно, что анализ предобученных моделей DiT показывает, что глобальное самовнимание часто избыточно, преимущественно захватывая локальные паттерны, что подчеркивает потенциал для более эффективных альтернатив. В данной работе мы возвращаемся к сверткам как альтернативному строительному блоку для создания эффективных и выразительных диффузионных моделей. Однако простая замена самовнимания на свертки обычно приводит к ухудшению производительности. Наши исследования связывают этот разрыв в производительности с более высокой избыточностью каналов в ConvNets по сравнению с Transformers. Для решения этой проблемы мы вводим компактный механизм внимания к каналам, который способствует активации более разнообразных каналов, тем самым повышая разнообразие признаков. Это приводит к созданию Diffusion ConvNet (DiCo), семейства диффузионных моделей, полностью построенных на стандартных модулях ConvNet, которые предлагают высокую генеративную производительность с существенным повышением эффективности. На бенчмарках ImageNet с условиями по классам DiCo превосходит предыдущие диффузионные модели как по качеству изображений, так и по скорости генерации. В частности, DiCo-XL достигает FID 2.05 при разрешении 256x256 и 2.53 при 512x512, с ускорением в 2.7x и 3.1x по сравнению с DiT-XL/2 соответственно. Более того, наша самая крупная модель, DiCo-H, масштабированная до 1 миллиарда параметров, достигает FID 1.90 на ImageNet 256x256 — без какого-либо дополнительного контроля во время обучения. Код: https://github.com/shallowdream204/DiCo.
English
Diffusion Transformer (DiT), a promising diffusion model for visual
generation, demonstrates impressive performance but incurs significant
computational overhead. Intriguingly, analysis of pre-trained DiT models
reveals that global self-attention is often redundant, predominantly capturing
local patterns-highlighting the potential for more efficient alternatives. In
this paper, we revisit convolution as an alternative building block for
constructing efficient and expressive diffusion models. However, naively
replacing self-attention with convolution typically results in degraded
performance. Our investigations attribute this performance gap to the higher
channel redundancy in ConvNets compared to Transformers. To resolve this, we
introduce a compact channel attention mechanism that promotes the activation of
more diverse channels, thereby enhancing feature diversity. This leads to
Diffusion ConvNet (DiCo), a family of diffusion models built entirely from
standard ConvNet modules, offering strong generative performance with
significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo
outperforms previous diffusion models in both image quality and generation
speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53
at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively.
Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID
of 1.90 on ImageNet 256x256-without any additional supervision during training.
Code: https://github.com/shallowdream204/DiCo.Summary
AI-Generated Summary