ChatPaper.aiChatPaper

OmniMamba : Compréhension et génération multimodales efficaces et unifiées via les modèles d'espace d'états

OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

March 11, 2025
Auteurs: Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI

Résumé

Les récents progrès dans les modèles unifiés de compréhension multimodale et de génération visuelle (ou génération multimodale) ont été entravés par leur complexité computationnelle quadratique et leur dépendance à des données d'entraînement à grande échelle. Nous présentons OmniMamba, le premier modèle de génération multimodale basé sur une architecture linéaire, capable de générer à la fois du texte et des images grâce à un paradigme unifié de prédiction de token suivant. Le modèle tire pleinement parti de la haute efficacité computationnelle et mémoire de Mamba-2, étendant ses capacités de génération de texte à la génération multimodale. Pour remédier à l'inefficacité des données des modèles unifiés existants, nous proposons deux innovations clés : (1) des vocabulaires découplés pour guider la génération spécifique à chaque modalité, et (2) un LoRA spécifique à la tâche pour une adaptation efficace en termes de paramètres. De plus, nous introduisons une stratégie d'entraînement en deux étapes découplées pour atténuer le déséquilibre des données entre les deux tâches. Doté de ces techniques, OmniMamba atteint des performances compétitives avec JanusFlow tout en surpassant Show-o sur les benchmarks, malgré un entraînement sur seulement 2 millions de paires image-texte, soit 1 000 fois moins que Show-o. Notamment, OmniMamba se distingue par une efficacité d'inférence exceptionnelle, atteignant jusqu'à 119,2 fois d'accélération et une réduction de 63 % de la mémoire GPU pour la génération de séquences longues par rapport aux modèles basés sur Transformer. Le code et les modèles sont disponibles à l'adresse https://github.com/hustvl/OmniMamba.
English
Recent advancements in unified multimodal understanding and visual generation (or multimodal generation) models have been hindered by their quadratic computational complexity and dependence on large-scale training data. We present OmniMamba, the first linear-architecture-based multimodal generation model that generates both text and images through a unified next-token prediction paradigm. The model fully leverages Mamba-2's high computational and memory efficiency, extending its capabilities from text generation to multimodal generation. To address the data inefficiency of existing unified models, we propose two key innovations: (1) decoupled vocabularies to guide modality-specific generation, and (2) task-specific LoRA for parameter-efficient adaptation. Furthermore, we introduce a decoupled two-stage training strategy to mitigate data imbalance between two tasks. Equipped with these techniques, OmniMamba achieves competitive performance with JanusFlow while surpassing Show-o across benchmarks, despite being trained on merely 2M image-text pairs, which is 1,000 times fewer than Show-o. Notably, OmniMamba stands out with outstanding inference efficiency, achieving up to a 119.2 times speedup and 63% GPU memory reduction for long-sequence generation compared to Transformer-based counterparts. Code and models are released at https://github.com/hustvl/OmniMamba

Summary

AI-Generated Summary

PDF192March 12, 2025