Skalierbare autoregressive Bildgenerierung mit Mamba
Scalable Autoregressive Image Generation with Mamba
August 22, 2024
Autoren: Haopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li
cs.AI
Zusammenfassung
Wir stellen AiM vor, ein autoregressives (AR) Bildgenerierungsmodell, das auf der Mamba-Architektur basiert. AiM nutzt Mamba, ein neuartiges Zustandsraummodell, das sich durch seine außergewöhnliche Leistung bei der Modellierung langer Sequenzen mit linearer Zeitkomplexität auszeichnet, um die häufig verwendeten Transformer in AR-Bildgenerierungsmodellen zu ersetzen. Das Ziel ist eine überlegene Generierungsqualität und eine verbesserte Inferenzgeschwindigkeit zu erreichen. Im Gegensatz zu bestehenden Methoden, die Mamba anpassen, um zweidimensionale Signale über einen multidirektionalen Scan zu verarbeiten, nutzt AiM direkt das Paradigma der nächsten Token-Vorhersage für die autoregressive Bildgenerierung. Dieser Ansatz umgeht die Notwendigkeit umfangreicher Modifikationen, um Mamba in die Lage zu versetzen, 2D-Raumdarstellungen zu erlernen. Durch die Implementierung einfacher, aber gezielter Modifikationen für visuelle Generierungsaufgaben bewahren wir die Kernstruktur von Mamba und nutzen vollständig seine effizienten Fähigkeiten zur Modellierung langer Sequenzen und Skalierbarkeit aus. Wir bieten AiM-Modelle in verschiedenen Maßstäben an, mit Parameterzahlen von 148M bis 1.3B. Auf dem ImageNet1K 256*256 Benchmark erreicht unser bestes AiM-Modell einen FID von 2.21 und übertrifft alle bestehenden AR-Modelle mit vergleichbaren Parameterzahlen. Es zeigt eine signifikante Wettbewerbsfähigkeit gegenüber Diffusionsmodellen, mit einer 2- bis 10-mal schnelleren Inferenzgeschwindigkeit. Der Code ist verfügbar unter https://github.com/hp-l33/AiM.
English
We introduce AiM, an autoregressive (AR) image generative model based on
Mamba architecture. AiM employs Mamba, a novel state-space model characterized
by its exceptional performance for long-sequence modeling with linear time
complexity, to supplant the commonly utilized Transformers in AR image
generation models, aiming to achieve both superior generation quality and
enhanced inference speed. Unlike existing methods that adapt Mamba to handle
two-dimensional signals via multi-directional scan, AiM directly utilizes the
next-token prediction paradigm for autoregressive image generation. This
approach circumvents the need for extensive modifications to enable Mamba to
learn 2D spatial representations. By implementing straightforward yet
strategically targeted modifications for visual generative tasks, we preserve
Mamba's core structure, fully exploiting its efficient long-sequence modeling
capabilities and scalability. We provide AiM models in various scales, with
parameter counts ranging from 148M to 1.3B. On the ImageNet1K 256*256
benchmark, our best AiM model achieves a FID of 2.21, surpassing all existing
AR models of comparable parameter counts and demonstrating significant
competitiveness against diffusion models, with 2 to 10 times faster inference
speed. Code is available at https://github.com/hp-l33/AiMSummary
AI-Generated Summary