DiCo: Revitalización de ConvNets para el modelado de difusión escalable y eficiente

Resumen

Diffusion Transformer (DiT), un modelo de difusión prometedor para la generación visual, demuestra un rendimiento impresionante pero incurre en un costo computacional significativo. Curiosamente, el análisis de modelos DiT preentrenados revela que la autoatención global a menudo es redundante, capturando predominantemente patrones locales, lo que resalta el potencial de alternativas más eficientes. En este artículo, reconsideramos la convolución como un bloque de construcción alternativo para construir modelos de difusión eficientes y expresivos. Sin embargo, reemplazar de manera ingenua la autoatención con convolución generalmente resulta en un rendimiento degradado. Nuestras investigaciones atribuyen esta brecha de rendimiento a la mayor redundancia de canales en ConvNets en comparación con Transformers. Para resolver esto, introducimos un mecanismo de atención de canales compacto que promueve la activación de canales más diversos, mejorando así la diversidad de características. Esto da lugar a Diffusion ConvNet (DiCo), una familia de modelos de difusión construidos completamente a partir de módulos estándar de ConvNet, que ofrecen un fuerte rendimiento generativo con ganancias significativas en eficiencia. En los puntos de referencia condicionales de clase de ImageNet, DiCo supera a los modelos de difusión anteriores tanto en calidad de imagen como en velocidad de generación. Notablemente, DiCo-XL logra un FID de 2.05 a una resolución de 256x256 y 2.53 a 512x512, con una aceleración de 2.7x y 3.1x sobre DiT-XL/2, respectivamente. Además, nuestro modelo más grande, DiCo-H, escalado a 1B parámetros, alcanza un FID de 1.90 en ImageNet 256x256, sin ninguna supervisión adicional durante el entrenamiento. Código: https://github.com/shallowdream204/DiCo.

English

Diffusion Transformer (DiT), a promising diffusion model for visual generation, demonstrates impressive performance but incurs significant computational overhead. Intriguingly, analysis of pre-trained DiT models reveals that global self-attention is often redundant, predominantly capturing local patterns-highlighting the potential for more efficient alternatives. In this paper, we revisit convolution as an alternative building block for constructing efficient and expressive diffusion models. However, naively replacing self-attention with convolution typically results in degraded performance. Our investigations attribute this performance gap to the higher channel redundancy in ConvNets compared to Transformers. To resolve this, we introduce a compact channel attention mechanism that promotes the activation of more diverse channels, thereby enhancing feature diversity. This leads to Diffusion ConvNet (DiCo), a family of diffusion models built entirely from standard ConvNet modules, offering strong generative performance with significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo outperforms previous diffusion models in both image quality and generation speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53 at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively. Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID of 1.90 on ImageNet 256x256-without any additional supervision during training. Code: https://github.com/shallowdream204/DiCo.

DiCo: Revitalización de ConvNets para el modelado de difusión escalable y eficiente

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

Resumen

Support