DiCo: Revitalización de ConvNets para el modelado de difusión escalable y eficiente
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling
May 16, 2025
Autores: Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang
cs.AI
Resumen
Diffusion Transformer (DiT), un modelo de difusión prometedor para la generación visual, demuestra un rendimiento impresionante pero incurre en un costo computacional significativo. Curiosamente, el análisis de modelos DiT preentrenados revela que la autoatención global a menudo es redundante, capturando predominantemente patrones locales, lo que resalta el potencial de alternativas más eficientes. En este artículo, reconsideramos la convolución como un bloque de construcción alternativo para construir modelos de difusión eficientes y expresivos. Sin embargo, reemplazar de manera ingenua la autoatención con convolución generalmente resulta en un rendimiento degradado. Nuestras investigaciones atribuyen esta brecha de rendimiento a la mayor redundancia de canales en ConvNets en comparación con Transformers. Para resolver esto, introducimos un mecanismo de atención de canales compacto que promueve la activación de canales más diversos, mejorando así la diversidad de características. Esto da lugar a Diffusion ConvNet (DiCo), una familia de modelos de difusión construidos completamente a partir de módulos estándar de ConvNet, que ofrecen un fuerte rendimiento generativo con ganancias significativas en eficiencia. En los puntos de referencia condicionales de clase de ImageNet, DiCo supera a los modelos de difusión anteriores tanto en calidad de imagen como en velocidad de generación. Notablemente, DiCo-XL logra un FID de 2.05 a una resolución de 256x256 y 2.53 a 512x512, con una aceleración de 2.7x y 3.1x sobre DiT-XL/2, respectivamente. Además, nuestro modelo más grande, DiCo-H, escalado a 1B parámetros, alcanza un FID de 1.90 en ImageNet 256x256, sin ninguna supervisión adicional durante el entrenamiento. Código: https://github.com/shallowdream204/DiCo.
English
Diffusion Transformer (DiT), a promising diffusion model for visual
generation, demonstrates impressive performance but incurs significant
computational overhead. Intriguingly, analysis of pre-trained DiT models
reveals that global self-attention is often redundant, predominantly capturing
local patterns-highlighting the potential for more efficient alternatives. In
this paper, we revisit convolution as an alternative building block for
constructing efficient and expressive diffusion models. However, naively
replacing self-attention with convolution typically results in degraded
performance. Our investigations attribute this performance gap to the higher
channel redundancy in ConvNets compared to Transformers. To resolve this, we
introduce a compact channel attention mechanism that promotes the activation of
more diverse channels, thereby enhancing feature diversity. This leads to
Diffusion ConvNet (DiCo), a family of diffusion models built entirely from
standard ConvNet modules, offering strong generative performance with
significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo
outperforms previous diffusion models in both image quality and generation
speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53
at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively.
Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID
of 1.90 on ImageNet 256x256-without any additional supervision during training.
Code: https://github.com/shallowdream204/DiCo.Summary
AI-Generated Summary