ChatPaper.aiChatPaper

DiM: Mamba de Difusão para Síntese Eficiente de Imagens de Alta Resolução

DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis

May 23, 2024
Autores: Yao Teng, Yue Wu, Han Shi, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu
cs.AI

Resumo

Os modelos de difusão têm alcançado grande sucesso na geração de imagens, com a arquitetura evoluindo de U-Net para Vision Transformers. No entanto, o custo computacional dos Transformers é quadrático em relação ao número de tokens, o que representa desafios significativos ao lidar com imagens de alta resolução. Neste trabalho, propomos o Diffusion Mamba (DiM), que combina a eficiência do Mamba, um modelo de sequência baseado em State Space Models (SSM), com o poder expressivo dos modelos de difusão para a síntese eficiente de imagens de alta resolução. Para enfrentar o desafio de que o Mamba não pode generalizar para sinais 2D, realizamos vários projetos de arquitetura, incluindo varreduras multidirecionais, tokens de preenchimento aprendíveis no final de cada linha e coluna, e aprimoramento leve de características locais. Nossa arquitetura DiM alcança eficiência no tempo de inferência para imagens de alta resolução. Além disso, para melhorar ainda mais a eficiência do treinamento na geração de imagens de alta resolução com o DiM, investigamos uma estratégia de treinamento "fraco para forte" que pré-treina o DiM em imagens de baixa resolução (256x256) e, em seguida, o ajusta em imagens de alta resolução (512x512). Exploramos ainda estratégias de upsampling sem treinamento para permitir que o modelo gere imagens de resolução ainda maior (por exemplo, 1024x1024 e 1536x1536) sem a necessidade de ajuste adicional. Experimentos demonstram a eficácia e eficiência do nosso DiM.
English
Diffusion models have achieved great success in image generation, with the backbone evolving from U-Net to Vision Transformers. However, the computational cost of Transformers is quadratic to the number of tokens, leading to significant challenges when dealing with high-resolution images. In this work, we propose Diffusion Mamba (DiM), which combines the efficiency of Mamba, a sequence model based on State Space Models (SSM), with the expressive power of diffusion models for efficient high-resolution image synthesis. To address the challenge that Mamba cannot generalize to 2D signals, we make several architecture designs including multi-directional scans, learnable padding tokens at the end of each row and column, and lightweight local feature enhancement. Our DiM architecture achieves inference-time efficiency for high-resolution images. In addition, to further improve training efficiency for high-resolution image generation with DiM, we investigate ``weak-to-strong'' training strategy that pretrains DiM on low-resolution images (256times 256) and then finetune it on high-resolution images (512 times 512). We further explore training-free upsampling strategies to enable the model to generate higher-resolution images (e.g., 1024times 1024 and 1536times 1536) without further fine-tuning. Experiments demonstrate the effectiveness and efficiency of our DiM.
PDF160December 15, 2024