MMaDA: Multimodale Große Diffusions-Sprachmodelle
MMaDA: Multimodal Large Diffusion Language Models
May 21, 2025
Autoren: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI
Zusammenfassung
Wir stellen MMaDA vor, eine neuartige Klasse von multimodalen Diffusions-Grundmodellen, die darauf ausgelegt sind, überragende Leistungen in verschiedenen Bereichen wie textbasiertem Denken, multimodalem Verständnis und Text-zu-Bild-Generierung zu erzielen. Der Ansatz zeichnet sich durch drei wesentliche Innovationen aus: (i) MMaDA verwendet eine einheitliche Diffusionsarchitektur mit einer gemeinsamen probabilistischen Formulierung und einer modalitätsunabhängigen Gestaltung, wodurch der Bedarf an modalitätsspezifischen Komponenten entfällt. Diese Architektur gewährleistet eine nahtlose Integration und Verarbeitung verschiedener Datentypen. (ii) Wir implementieren eine gemischte Long Chain-of-Thought (CoT)-Feinabstimmungsstrategie, die ein einheitliches CoT-Format über verschiedene Modalitäten hinweg kuratiert. Durch die Ausrichtung der Denkprozesse zwischen textuellen und visuellen Domänen erleichtert diese Strategie das Cold-Start-Training für die finale Verstärkungslernphase (RL) und verbessert somit die Fähigkeit des Modells, komplexe Aufgaben von Beginn an zu bewältigen. (iii) Wir schlagen UniGRPO vor, einen einheitlichen, auf Policy-Gradienten basierenden RL-Algorithmus, der speziell für Diffusions-Grundmodelle entwickelt wurde. Durch die Nutzung diversifizierter Belohnungsmodellierung vereinheitlicht UniGRPO das Post-Training sowohl für Denk- als auch für Generierungsaufgaben und gewährleistet konsistente Leistungsverbesserungen. Experimentelle Ergebnisse zeigen, dass MMaDA-8B als einheitliches multimodales Grundmodell starke Generalisierungsfähigkeiten aufweist. Es übertrifft leistungsstarke Modelle wie LLaMA-3-7B und Qwen2-7B im textbasierten Denken, überragt Show-o und SEED-X im multimodalen Verständnis und übertrifft SDXL und Janus in der Text-zu-Bild-Generierung. Diese Erfolge unterstreichen die Effektivität von MMaDA bei der Überbrückung der Lücke zwischen Pre-Training und Post-Training innerhalb einheitlicher Diffusionsarchitekturen und bieten einen umfassenden Rahmen für zukünftige Forschung und Entwicklung. Wir stellen unseren Code und die trainierten Modelle unter folgender Adresse als Open Source zur Verfügung: https://github.com/Gen-Verse/MMaDA
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models
designed to achieve superior performance across diverse domains such as textual
reasoning, multimodal understanding, and text-to-image generation. The approach
is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion
architecture with a shared probabilistic formulation and a modality-agnostic
design, eliminating the need for modality-specific components. This
architecture ensures seamless integration and processing across different data
types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning
strategy that curates a unified CoT format across modalities. By aligning
reasoning processes between textual and visual domains, this strategy
facilitates cold-start training for the final reinforcement learning (RL)
stage, thereby enhancing the model's ability to handle complex tasks from the
outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm
specifically tailored for diffusion foundation models. Utilizing diversified
reward modeling, UniGRPO unifies post-training across both reasoning and
generation tasks, ensuring consistent performance improvements. Experimental
results demonstrate that MMaDA-8B exhibits strong generalization capabilities
as a unified multimodal foundation model. It surpasses powerful models like
LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in
multimodal understanding, and excels over SDXL and Janus in text-to-image
generation. These achievements highlight MMaDA's effectiveness in bridging the
gap between pretraining and post-training within unified diffusion
architectures, providing a comprehensive framework for future research and
development. We open-source our code and trained models at:
https://github.com/Gen-Verse/MMaDASummary
AI-Generated Summary