マンバを用いたスケーラブルな自己回帰型画像生成
Scalable Autoregressive Image Generation with Mamba
August 22, 2024
著者: Haopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li
cs.AI
要旨
私たちは、Mambaアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介します。AiMは、線形時間複雑性を持つ長いシーケンスモデリングにおいて優れた性能を発揮する革新的な状態空間モデルであるMambaを利用し、AR画像生成モデルで一般的に使用されるTransformersを置き換えることを目指しています。従来の手法がMambaを2次元信号を処理するために多方向スキャンを用いて適応させるのに対し、AiMは自己回帰画像生成のために次のトークン予測パラダイムを直接利用します。このアプローチにより、Mambaが2D空間表現を学習するための大幅な変更が不要となります。視覚生成タスク向けに簡潔かつ戦略的にターゲットを絞った修正を実装することで、Mambaのコア構造を維持し、効率的な長いシーケンスモデリング能力とスケーラビリティを十分に活用しています。パラメータ数が148Mから1.3Bまでの様々なスケールのAiMモデルを提供しています。ImageNet1K 256*256のベンチマークでは、最高のAiMモデルが2.21のFIDを達成し、同等のパラメータ数を持つすべての既存のARモデルを上回り、2倍から10倍高速な推論速度で拡散モデルに対しても大きな競争力を示しています。コードはhttps://github.com/hp-l33/AiMで入手可能です。
English
We introduce AiM, an autoregressive (AR) image generative model based on
Mamba architecture. AiM employs Mamba, a novel state-space model characterized
by its exceptional performance for long-sequence modeling with linear time
complexity, to supplant the commonly utilized Transformers in AR image
generation models, aiming to achieve both superior generation quality and
enhanced inference speed. Unlike existing methods that adapt Mamba to handle
two-dimensional signals via multi-directional scan, AiM directly utilizes the
next-token prediction paradigm for autoregressive image generation. This
approach circumvents the need for extensive modifications to enable Mamba to
learn 2D spatial representations. By implementing straightforward yet
strategically targeted modifications for visual generative tasks, we preserve
Mamba's core structure, fully exploiting its efficient long-sequence modeling
capabilities and scalability. We provide AiM models in various scales, with
parameter counts ranging from 148M to 1.3B. On the ImageNet1K 256*256
benchmark, our best AiM model achieves a FID of 2.21, surpassing all existing
AR models of comparable parameter counts and demonstrating significant
competitiveness against diffusion models, with 2 to 10 times faster inference
speed. Code is available at https://github.com/hp-l33/AiMSummary
AI-Generated Summary