MMaDA: Modelli Linguistici Multimodali di Diffusione su Grande Scala
MMaDA: Multimodal Large Diffusion Language Models
May 21, 2025
Autori: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI
Abstract
Introduciamo MMaDA, una nuova classe di modelli di fondazione basati su diffusione multimodale progettati per ottenere prestazioni superiori in diversi domini come il ragionamento testuale, la comprensione multimodale e la generazione di immagini da testo. L'approccio si distingue per tre innovazioni chiave: (i) MMaDA adotta un'architettura di diffusione unificata con una formulazione probabilistica condivisa e un design agnostico rispetto alle modalità, eliminando la necessità di componenti specifici per ciascuna modalità. Questa architettura garantisce un'integrazione e un'elaborazione senza soluzione di continuità tra diversi tipi di dati. (ii) Implementiamo una strategia di fine-tuning mista a catena di pensiero (CoT) lunga che cura un formato CoT unificato tra le modalità. Allineando i processi di ragionamento tra i domini testuali e visivi, questa strategia facilita l'addestramento a freddo per la fase finale di apprendimento per rinforzo (RL), migliorando così la capacità del modello di gestire compiti complessi fin dall'inizio. (iii) Proponiamo UniGRPO, un algoritmo RL basato su gradienti di politica unificato, specificamente adattato per i modelli di fondazione basati su diffusione. Utilizzando una modellizzazione diversificata delle ricompense, UniGRPO unifica il post-training sia per i compiti di ragionamento che di generazione, garantendo miglioramenti prestazionali consistenti. I risultati sperimentali dimostrano che MMaDA-8B mostra forti capacità di generalizzazione come modello di fondazione multimodale unificato. Supera modelli potenti come LLaMA-3-7B e Qwen2-7B nel ragionamento testuale, supera Show-o e SEED-X nella comprensione multimodale e eccelle rispetto a SDXL e Janus nella generazione di immagini da testo. Questi risultati evidenziano l'efficacia di MMaDA nel colmare il divario tra pre-training e post-training all'interno di architetture di diffusione unificate, fornendo un quadro completo per la ricerca e lo sviluppo futuri. Rendiamo disponibile il nostro codice e i modelli addestrati all'indirizzo: https://github.com/Gen-Verse/MMaDA.
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models
designed to achieve superior performance across diverse domains such as textual
reasoning, multimodal understanding, and text-to-image generation. The approach
is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion
architecture with a shared probabilistic formulation and a modality-agnostic
design, eliminating the need for modality-specific components. This
architecture ensures seamless integration and processing across different data
types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning
strategy that curates a unified CoT format across modalities. By aligning
reasoning processes between textual and visual domains, this strategy
facilitates cold-start training for the final reinforcement learning (RL)
stage, thereby enhancing the model's ability to handle complex tasks from the
outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm
specifically tailored for diffusion foundation models. Utilizing diversified
reward modeling, UniGRPO unifies post-training across both reasoning and
generation tasks, ensuring consistent performance improvements. Experimental
results demonstrate that MMaDA-8B exhibits strong generalization capabilities
as a unified multimodal foundation model. It surpasses powerful models like
LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in
multimodal understanding, and excels over SDXL and Janus in text-to-image
generation. These achievements highlight MMaDA's effectiveness in bridging the
gap between pretraining and post-training within unified diffusion
architectures, providing a comprehensive framework for future research and
development. We open-source our code and trained models at:
https://github.com/Gen-Verse/MMaDA