MMaDA: Multimodale Grote Diffusie Taalmodellen
MMaDA: Multimodal Large Diffusion Language Models
May 21, 2025
Auteurs: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI
Samenvatting
We introduceren MMaDA, een nieuwe klasse van multimodale diffusie-foundationmodellen die ontworpen zijn om superieure prestaties te leveren op diverse domeinen zoals tekstueel redeneren, multimodale interpretatie en tekst-naar-beeldgeneratie. De aanpak onderscheidt zich door drie belangrijke innovaties: (i) MMaDA maakt gebruik van een uniforme diffusie-architectuur met een gedeelde probabilistische formulering en een modaal-agnostisch ontwerp, waardoor de noodzaak voor modaal-specifieke componenten wordt geëlimineerd. Deze architectuur zorgt voor naadloze integratie en verwerking van verschillende datatypes. (ii) We implementeren een gemengde lange keten-van-gedachten (CoT) fine-tuningstrategie die een uniform CoT-formaat over modaliteiten heen samenstelt. Door de redeneerprocessen tussen tekstuele en visuele domeinen af te stemmen, vergemakkelijkt deze strategie de cold-starttraining voor de uiteindelijke reinforcement learning (RL)-fase, waardoor het vermogen van het model om complexe taken vanaf het begin aan te pakken wordt verbeterd. (iii) We stellen UniGRPO voor, een uniform op beleidsgradiënten gebaseerd RL-algoritme dat specifiek is afgestemd op diffusie-foundationmodellen. Door gebruik te maken van gediversifieerde beloningsmodellering, verenigt UniGRPO de post-training over zowel redeneer- als generatietaken, wat zorgt voor consistente prestatieverbeteringen. Experimentele resultaten tonen aan dat MMaDA-8B sterke generalisatiecapaciteiten vertoont als een uniform multimodaal foundationmodel. Het overtreft krachtige modellen zoals LLaMA-3-7B en Qwen2-7B in tekstueel redeneren, presteert beter dan Show-o en SEED-X in multimodale interpretatie, en overtreft SDXL en Janus in tekst-naar-beeldgeneratie. Deze prestaties benadrukken de effectiviteit van MMaDA in het overbruggen van de kloof tussen pretraining en post-training binnen uniforme diffusie-architecturen, en bieden een uitgebreid kader voor toekomstig onderzoek en ontwikkeling. We maken onze code en getrainde modellen openbaar op: https://github.com/Gen-Verse/MMaDA.
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models
designed to achieve superior performance across diverse domains such as textual
reasoning, multimodal understanding, and text-to-image generation. The approach
is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion
architecture with a shared probabilistic formulation and a modality-agnostic
design, eliminating the need for modality-specific components. This
architecture ensures seamless integration and processing across different data
types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning
strategy that curates a unified CoT format across modalities. By aligning
reasoning processes between textual and visual domains, this strategy
facilitates cold-start training for the final reinforcement learning (RL)
stage, thereby enhancing the model's ability to handle complex tasks from the
outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm
specifically tailored for diffusion foundation models. Utilizing diversified
reward modeling, UniGRPO unifies post-training across both reasoning and
generation tasks, ensuring consistent performance improvements. Experimental
results demonstrate that MMaDA-8B exhibits strong generalization capabilities
as a unified multimodal foundation model. It surpasses powerful models like
LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in
multimodal understanding, and excels over SDXL and Janus in text-to-image
generation. These achievements highlight MMaDA's effectiveness in bridging the
gap between pretraining and post-training within unified diffusion
architectures, providing a comprehensive framework for future research and
development. We open-source our code and trained models at:
https://github.com/Gen-Verse/MMaDA