ChatPaper.aiChatPaper

ZigMa: Zigzag-Mamba-Diffusionsmodell

ZigMa: Zigzag Mamba Diffusion Model

March 20, 2024
Autoren: Vincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Bjorn Ommer
cs.AI

Zusammenfassung

Das Diffusionsmodell wurde lange Zeit von Skalierbarkeits- und quadratischen Komplexitätsproblemen geplagt, insbesondere innerhalb von auf Transformatoren basierenden Strukturen. In dieser Studie zielen wir darauf ab, die Fähigkeit zur Modellierung langer Sequenzen eines Zustandsraummodells namens Mamba zu nutzen, um seine Anwendbarkeit auf die Generierung visueller Daten zu erweitern. Zunächst identifizieren wir ein entscheidendes Versäumnis in den meisten aktuellen Mamba-basierten Methoden für die Bildverarbeitung, nämlich das Fehlen der Berücksichtigung räumlicher Kontinuität im Scan-Schema von Mamba. Zweitens bauen wir auf dieser Erkenntnis auf und führen eine einfache, Plug-and-Play-, nullparameter Methode namens Zigzag Mamba ein, die Mamba-basierte Baselines übertrifft und im Vergleich zu auf Transformatoren basierenden Baselines eine verbesserte Geschwindigkeit und Speichernutzung aufweist. Schließlich integrieren wir Zigzag Mamba in das Stochastic Interpolant Framework, um die Skalierbarkeit des Modells auf großen Auflösungsdatensätzen zu untersuchen, wie z.B. FacesHQ 1024mal 1024 und UCF101, MultiModal-CelebA-HQ und MS COCO 256mal 256. Der Code wird unter https://taohu.me/zigma/ veröffentlicht.
English
The diffusion model has long been plagued by scalability and quadratic complexity issues, especially within transformer-based structures. In this study, we aim to leverage the long sequence modeling capability of a State-Space Model called Mamba to extend its applicability to visual data generation. Firstly, we identify a critical oversight in most current Mamba-based vision methods, namely the lack of consideration for spatial continuity in the scan scheme of Mamba. Secondly, building upon this insight, we introduce a simple, plug-and-play, zero-parameter method named Zigzag Mamba, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines. Lastly, we integrate Zigzag Mamba with the Stochastic Interpolant framework to investigate the scalability of the model on large-resolution visual datasets, such as FacesHQ 1024times 1024 and UCF101, MultiModal-CelebA-HQ, and MS COCO 256times 256. Code will be released at https://taohu.me/zigma/

Summary

AI-Generated Summary

PDF182December 15, 2024