OmniMamba: Comprensione e Generazione Multimodale Efficiente e Unificata tramite Modelli di Spazio degli Stati
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models
March 11, 2025
Autori: Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Abstract
I recenti progressi nei modelli unificati di comprensione multimodale e generazione visiva (o generazione multimodale) sono stati ostacolati dalla loro complessità computazionale quadratica e dalla dipendenza da dati di addestramento su larga scala. Presentiamo OmniMamba, il primo modello di generazione multimodale basato su un'architettura lineare che genera sia testo che immagini attraverso un paradigma unificato di previsione del token successivo. Il modello sfrutta appieno l'elevata efficienza computazionale e di memoria di Mamba-2, estendendo le sue capacità dalla generazione di testo alla generazione multimodale. Per affrontare l'inefficienza dei dati dei modelli unificati esistenti, proponiamo due innovazioni chiave: (1) vocabolari disaccoppiati per guidare la generazione specifica per modalità, e (2) LoRA specifico per il compito per un adattamento efficiente dei parametri. Inoltre, introduciamo una strategia di addestramento in due fasi disaccoppiata per mitigare lo squilibrio dei dati tra i due compiti. Dotato di queste tecniche, OmniMamba raggiunge prestazioni competitive con JanusFlow superando Show-o nei benchmark, nonostante sia stato addestrato su soli 2 milioni di coppie immagine-testo, ovvero 1.000 volte in meno rispetto a Show-o. In particolare, OmniMamba si distingue per un'eccellente efficienza inferenziale, raggiungendo un incremento di velocità fino a 119,2 volte e una riduzione del 63% della memoria GPU per la generazione di sequenze lunghe rispetto alle controparti basate su Transformer. Codice e modelli sono disponibili all'indirizzo https://github.com/hustvl/OmniMamba.
English
Recent advancements in unified multimodal understanding and visual generation
(or multimodal generation) models have been hindered by their quadratic
computational complexity and dependence on large-scale training data. We
present OmniMamba, the first linear-architecture-based multimodal generation
model that generates both text and images through a unified next-token
prediction paradigm. The model fully leverages Mamba-2's high computational and
memory efficiency, extending its capabilities from text generation to
multimodal generation. To address the data inefficiency of existing unified
models, we propose two key innovations: (1) decoupled vocabularies to guide
modality-specific generation, and (2) task-specific LoRA for
parameter-efficient adaptation. Furthermore, we introduce a decoupled two-stage
training strategy to mitigate data imbalance between two tasks. Equipped with
these techniques, OmniMamba achieves competitive performance with JanusFlow
while surpassing Show-o across benchmarks, despite being trained on merely 2M
image-text pairs, which is 1,000 times fewer than Show-o. Notably, OmniMamba
stands out with outstanding inference efficiency, achieving up to a 119.2 times
speedup and 63% GPU memory reduction for long-sequence generation compared to
Transformer-based counterparts. Code and models are released at
https://github.com/hustvl/OmniMamba