ChatPaper.aiChatPaper

OmniMamba: 상태 공간 모델을 통한 효율적이고 통합된 멀티모달 이해 및 생성

OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

March 11, 2025
저자: Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI

초록

최근 통합 다중모달 이해 및 시각적 생성(또는 다중모달 생성) 모델의 발전은 이차 계산 복잡성과 대규모 학습 데이터에 대한 의존성으로 인해 제약을 받아왔습니다. 우리는 텍스트와 이미지를 통합된 다음 토큰 예측 패러다임을 통해 생성하는 최초의 선형 아키텍처 기반 다중모달 생성 모델인 OmniMamba를 제안합니다. 이 모델은 Mamba-2의 높은 계산 및 메모리 효율성을 완전히 활용하여 텍스트 생성에서 다중모달 생성으로 그 기능을 확장합니다. 기존 통합 모델의 데이터 비효율성을 해결하기 위해, 우리는 두 가지 주요 혁신을 제안합니다: (1) 모달리티별 생성을 안내하기 위한 분리된 어휘 사전, (2) 파라미터 효율적 적응을 위한 작업별 LoRA. 또한, 두 작업 간 데이터 불균형을 완화하기 위해 분리된 두 단계 학습 전략을 도입했습니다. 이러한 기술을 통해 OmniMamba는 JanusFlow와 경쟁력 있는 성능을 달성하면서 Show-o를 벤치마크에서 능가하며, 단 2M개의 이미지-텍스트 쌍으로 학습되었음에도 불구하고 Show-o보다 1,000배 적은 데이터로 학습되었습니다. 특히, OmniMamba는 뛰어난 추론 효율성으로 두드러지며, Transformer 기반 대비 최대 119.2배의 속도 향상과 63%의 GPU 메모리 감소를 달성했습니다. 코드와 모델은 https://github.com/hustvl/OmniMamba에서 공개되었습니다.
English
Recent advancements in unified multimodal understanding and visual generation (or multimodal generation) models have been hindered by their quadratic computational complexity and dependence on large-scale training data. We present OmniMamba, the first linear-architecture-based multimodal generation model that generates both text and images through a unified next-token prediction paradigm. The model fully leverages Mamba-2's high computational and memory efficiency, extending its capabilities from text generation to multimodal generation. To address the data inefficiency of existing unified models, we propose two key innovations: (1) decoupled vocabularies to guide modality-specific generation, and (2) task-specific LoRA for parameter-efficient adaptation. Furthermore, we introduce a decoupled two-stage training strategy to mitigate data imbalance between two tasks. Equipped with these techniques, OmniMamba achieves competitive performance with JanusFlow while surpassing Show-o across benchmarks, despite being trained on merely 2M image-text pairs, which is 1,000 times fewer than Show-o. Notably, OmniMamba stands out with outstanding inference efficiency, achieving up to a 119.2 times speedup and 63% GPU memory reduction for long-sequence generation compared to Transformer-based counterparts. Code and models are released at https://github.com/hustvl/OmniMamba

Summary

AI-Generated Summary

PDF192March 12, 2025