OmniMamba: Efficiënte en Geünificeerde Multimodale Begripsvorming en Generatie via State Space Modellen
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models
March 11, 2025
Auteurs: Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Samenvatting
Recente vooruitgang in geünificeerde multimodale begrips- en visuele generatie
(of multimodale generatie) modellen is belemmerd door hun kwadratische
computationale complexiteit en afhankelijkheid van grootschalige trainingsdata. Wij
presenteren OmniMamba, het eerste lineair-architectuurgebaseerde multimodale generatie-
model dat zowel tekst als afbeeldingen genereert via een geünificeerd next-token
voorspellingsparadigma. Het model benut volledig de hoge computationale en geheugen-
efficiëntie van Mamba-2, en breidt de mogelijkheden uit van tekstgeneratie naar
multimodale generatie. Om de data-inefficiëntie van bestaande geünificeerde modellen
aan te pakken, stellen we twee belangrijke innovaties voor: (1) ontkoppelde vocabulaire
om modaal-specifieke generatie te sturen, en (2) taakspecifieke LoRA voor
parameter-efficiënte aanpassing. Verder introduceren we een ontkoppelde tweefasen-
trainingsstrategie om data-onbalans tussen twee taken te verminderen. Uitgerust met
deze technieken behaalt OmniMamba competitieve prestaties met JanusFlow terwijl het
Show-o overtreft op benchmarks, ondanks dat het getraind is op slechts 2M
afbeelding-tekst paren, wat 1.000 keer minder is dan Show-o. Opmerkelijk is dat OmniMamba
uitblinkt met uitstekende inferentie-efficiëntie, met een versnelling tot 119,2 keer
en een GPU-geheugenreductie van 63% voor lange-sequentiegeneratie in vergelijking met
Transformer-gebaseerde tegenhangers. Code en modellen zijn vrijgegeven op
https://github.com/hustvl/OmniMamba.
English
Recent advancements in unified multimodal understanding and visual generation
(or multimodal generation) models have been hindered by their quadratic
computational complexity and dependence on large-scale training data. We
present OmniMamba, the first linear-architecture-based multimodal generation
model that generates both text and images through a unified next-token
prediction paradigm. The model fully leverages Mamba-2's high computational and
memory efficiency, extending its capabilities from text generation to
multimodal generation. To address the data inefficiency of existing unified
models, we propose two key innovations: (1) decoupled vocabularies to guide
modality-specific generation, and (2) task-specific LoRA for
parameter-efficient adaptation. Furthermore, we introduce a decoupled two-stage
training strategy to mitigate data imbalance between two tasks. Equipped with
these techniques, OmniMamba achieves competitive performance with JanusFlow
while surpassing Show-o across benchmarks, despite being trained on merely 2M
image-text pairs, which is 1,000 times fewer than Show-o. Notably, OmniMamba
stands out with outstanding inference efficiency, achieving up to a 119.2 times
speedup and 63% GPU memory reduction for long-sequence generation compared to
Transformer-based counterparts. Code and models are released at
https://github.com/hustvl/OmniMambaSummary
AI-Generated Summary