MMaDA: Modelos de Lenguaje Multimodales de Difusión a Gran Escala
MMaDA: Multimodal Large Diffusion Language Models
May 21, 2025
Autores: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI
Resumen
Presentamos MMaDA, una nueva clase de modelos fundacionales de difusión multimodal diseñados para lograr un rendimiento superior en diversos dominios, como el razonamiento textual, la comprensión multimodal y la generación de texto a imagen. El enfoque se distingue por tres innovaciones clave: (i) MMaDA adopta una arquitectura de difusión unificada con una formulación probabilística compartida y un diseño agnóstico a la modalidad, eliminando la necesidad de componentes específicos para cada modalidad. Esta arquitectura garantiza una integración y procesamiento sin problemas entre diferentes tipos de datos. (ii) Implementamos una estrategia de ajuste fino de cadena de pensamiento (CoT) mixta y larga que organiza un formato CoT unificado entre modalidades. Al alinear los procesos de razonamiento entre los dominios textual y visual, esta estrategia facilita el entrenamiento de arranque en frío para la etapa final de aprendizaje por refuerzo (RL), mejorando así la capacidad del modelo para manejar tareas complejas desde el principio. (iii) Proponemos UniGRPO, un algoritmo de RL basado en gradientes de política unificado, específicamente adaptado para modelos fundacionales de difusión. Utilizando un modelado de recompensas diversificado, UniGRPO unifica el post-entrenamiento tanto en tareas de razonamiento como de generación, asegurando mejoras consistentes en el rendimiento. Los resultados experimentales demuestran que MMaDA-8B exhibe fuertes capacidades de generalización como un modelo fundacional multimodal unificado. Supera a modelos potentes como LLaMA-3-7B y Qwen2-7B en razonamiento textual, supera a Show-o y SEED-X en comprensión multimodal, y supera a SDXL y Janus en la generación de texto a imagen. Estos logros destacan la efectividad de MMaDA para cerrar la brecha entre el pre-entrenamiento y el post-entrenamiento dentro de arquitecturas de difusión unificadas, proporcionando un marco integral para futuras investigaciones y desarrollos. Hemos liberado nuestro código y modelos entrenados en: https://github.com/Gen-Verse/MMaDA.
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models
designed to achieve superior performance across diverse domains such as textual
reasoning, multimodal understanding, and text-to-image generation. The approach
is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion
architecture with a shared probabilistic formulation and a modality-agnostic
design, eliminating the need for modality-specific components. This
architecture ensures seamless integration and processing across different data
types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning
strategy that curates a unified CoT format across modalities. By aligning
reasoning processes between textual and visual domains, this strategy
facilitates cold-start training for the final reinforcement learning (RL)
stage, thereby enhancing the model's ability to handle complex tasks from the
outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm
specifically tailored for diffusion foundation models. Utilizing diversified
reward modeling, UniGRPO unifies post-training across both reasoning and
generation tasks, ensuring consistent performance improvements. Experimental
results demonstrate that MMaDA-8B exhibits strong generalization capabilities
as a unified multimodal foundation model. It surpasses powerful models like
LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in
multimodal understanding, and excels over SDXL and Janus in text-to-image
generation. These achievements highlight MMaDA's effectiveness in bridging the
gap between pretraining and post-training within unified diffusion
architectures, providing a comprehensive framework for future research and
development. We open-source our code and trained models at:
https://github.com/Gen-Verse/MMaDASummary
AI-Generated Summary