DiM: 高解像度画像合成のための効率的なDiffusion Mamba
DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis
May 23, 2024
著者: Yao Teng, Yue Wu, Han Shi, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu
cs.AI
要旨
拡散モデルは画像生成において大きな成功を収めており、そのバックボーンはU-NetからVision Transformersへと進化してきました。しかし、Transformersの計算コストはトークン数の二乗に比例するため、高解像度画像を扱う際に大きな課題となっています。本研究では、State Space Models (SSM) に基づくシーケンスモデルであるMambaの効率性と、拡散モデルの表現力を組み合わせたDiffusion Mamba (DiM)を提案し、効率的な高解像度画像合成を実現します。Mambaが2D信号に一般化できないという課題に対処するため、多方向スキャン、各行および各列の終端に学習可能なパディングトークンを追加、軽量な局所特徴強化など、いくつかのアーキテクチャ設計を行いました。我々のDiMアーキテクチャは、高解像度画像に対する推論時の効率性を実現しています。さらに、DiMを用いた高解像度画像生成の訓練効率をさらに向上させるため、低解像度画像(256×256)でDiMを事前訓練し、その後高解像度画像(512×512)で微調整する「弱から強へ」の訓練戦略を検討しました。また、追加の微調整なしに、より高解像度の画像(例:1024×1024や1536×1536)を生成できるよう、訓練不要なアップサンプリング戦略も探求しました。実験により、我々のDiMの有効性と効率性が実証されています。
English
Diffusion models have achieved great success in image generation, with the
backbone evolving from U-Net to Vision Transformers. However, the computational
cost of Transformers is quadratic to the number of tokens, leading to
significant challenges when dealing with high-resolution images. In this work,
we propose Diffusion Mamba (DiM), which combines the efficiency of Mamba, a
sequence model based on State Space Models (SSM), with the expressive power of
diffusion models for efficient high-resolution image synthesis. To address the
challenge that Mamba cannot generalize to 2D signals, we make several
architecture designs including multi-directional scans, learnable padding
tokens at the end of each row and column, and lightweight local feature
enhancement. Our DiM architecture achieves inference-time efficiency for
high-resolution images. In addition, to further improve training efficiency for
high-resolution image generation with DiM, we investigate ``weak-to-strong''
training strategy that pretrains DiM on low-resolution images (256times 256)
and then finetune it on high-resolution images (512 times 512). We further
explore training-free upsampling strategies to enable the model to generate
higher-resolution images (e.g., 1024times 1024 and 1536times 1536)
without further fine-tuning. Experiments demonstrate the effectiveness and
efficiency of our DiM.