MMaDA: マルチモーダル大規模拡散言語モデル
MMaDA: Multimodal Large Diffusion Language Models
May 21, 2025
著者: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI
要旨
我々は、テキスト推論、マルチモーダル理解、テキストから画像生成といった多様な領域で優れた性能を発揮することを目的とした、新たなマルチモーダル拡散基盤モデル「MMaDA」を紹介する。このアプローチは、以下の3つの主要な革新によって特徴づけられる。(i) MMaDAは、共有された確率的定式化とモダリティに依存しない設計を備えた統一拡散アーキテクチャを採用し、モダリティ固有のコンポーネントを不要とする。このアーキテクチャにより、異なるデータタイプ間のシームレスな統合と処理が保証される。(ii) 我々は、モダリティ間で統一された連鎖思考(CoT)形式を整備する混合長連鎖思考(CoT)ファインチューニング戦略を実装する。テキストと視覚領域間の推論プロセスを整合させることで、この戦略は最終的な強化学習(RL)段階のコールドスタートトレーニングを促進し、モデルが初めから複雑なタスクを処理する能力を向上させる。(iii) 我々は、拡散基盤モデルに特化した統一ポリシー勾配ベースのRLアルゴリズム「UniGRPO」を提案する。多様化された報酬モデリングを活用することで、UniGRPOは推論と生成タスクの両方にわたるポストトレーニングを統一し、一貫した性能向上を保証する。実験結果は、MMaDA-8Bが統一マルチモーダル基盤モデルとして強力な汎化能力を示すことを実証している。MMaDA-8Bは、テキスト推論においてLLaMA-3-7BやQwen2-7Bといった強力なモデルを凌駕し、マルチモーダル理解においてShow-oやSEED-Xを上回り、テキストから画像生成においてSDXLやJanusを凌ぐ。これらの成果は、MMaDAが統一拡散アーキテクチャ内での事前学習とポストトレーニングのギャップを埋める有効性を強調し、将来の研究開発のための包括的なフレームワークを提供する。我々は、コードとトレーニング済みモデルを以下でオープンソース化している: https://github.com/Gen-Verse/MMaDA
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models
designed to achieve superior performance across diverse domains such as textual
reasoning, multimodal understanding, and text-to-image generation. The approach
is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion
architecture with a shared probabilistic formulation and a modality-agnostic
design, eliminating the need for modality-specific components. This
architecture ensures seamless integration and processing across different data
types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning
strategy that curates a unified CoT format across modalities. By aligning
reasoning processes between textual and visual domains, this strategy
facilitates cold-start training for the final reinforcement learning (RL)
stage, thereby enhancing the model's ability to handle complex tasks from the
outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm
specifically tailored for diffusion foundation models. Utilizing diversified
reward modeling, UniGRPO unifies post-training across both reasoning and
generation tasks, ensuring consistent performance improvements. Experimental
results demonstrate that MMaDA-8B exhibits strong generalization capabilities
as a unified multimodal foundation model. It surpasses powerful models like
LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in
multimodal understanding, and excels over SDXL and Janus in text-to-image
generation. These achievements highlight MMaDA's effectiveness in bridging the
gap between pretraining and post-training within unified diffusion
architectures, providing a comprehensive framework for future research and
development. We open-source our code and trained models at:
https://github.com/Gen-Verse/MMaDASummary
AI-Generated Summary