ChatPaper.aiChatPaper

MMaDA: Modelos de Lenguaje Multimodales de Difusión a Gran Escala

MMaDA: Multimodal Large Diffusion Language Models

May 21, 2025
Autores: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI

Resumen

Presentamos MMaDA, una nueva clase de modelos fundacionales de difusión multimodal diseñados para lograr un rendimiento superior en diversos dominios, como el razonamiento textual, la comprensión multimodal y la generación de texto a imagen. El enfoque se distingue por tres innovaciones clave: (i) MMaDA adopta una arquitectura de difusión unificada con una formulación probabilística compartida y un diseño agnóstico a la modalidad, eliminando la necesidad de componentes específicos para cada modalidad. Esta arquitectura garantiza una integración y procesamiento sin problemas entre diferentes tipos de datos. (ii) Implementamos una estrategia de ajuste fino de cadena de pensamiento (CoT) mixta y larga que organiza un formato CoT unificado entre modalidades. Al alinear los procesos de razonamiento entre los dominios textual y visual, esta estrategia facilita el entrenamiento de arranque en frío para la etapa final de aprendizaje por refuerzo (RL), mejorando así la capacidad del modelo para manejar tareas complejas desde el principio. (iii) Proponemos UniGRPO, un algoritmo de RL basado en gradientes de política unificado, específicamente adaptado para modelos fundacionales de difusión. Utilizando un modelado de recompensas diversificado, UniGRPO unifica el post-entrenamiento tanto en tareas de razonamiento como de generación, asegurando mejoras consistentes en el rendimiento. Los resultados experimentales demuestran que MMaDA-8B exhibe fuertes capacidades de generalización como un modelo fundacional multimodal unificado. Supera a modelos potentes como LLaMA-3-7B y Qwen2-7B en razonamiento textual, supera a Show-o y SEED-X en comprensión multimodal, y supera a SDXL y Janus en la generación de texto a imagen. Estos logros destacan la efectividad de MMaDA para cerrar la brecha entre el pre-entrenamiento y el post-entrenamiento dentro de arquitecturas de difusión unificadas, proporcionando un marco integral para futuras investigaciones y desarrollos. Hemos liberado nuestro código y modelos entrenados en: https://github.com/Gen-Verse/MMaDA.
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models designed to achieve superior performance across diverse domains such as textual reasoning, multimodal understanding, and text-to-image generation. The approach is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion architecture with a shared probabilistic formulation and a modality-agnostic design, eliminating the need for modality-specific components. This architecture ensures seamless integration and processing across different data types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning strategy that curates a unified CoT format across modalities. By aligning reasoning processes between textual and visual domains, this strategy facilitates cold-start training for the final reinforcement learning (RL) stage, thereby enhancing the model's ability to handle complex tasks from the outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm specifically tailored for diffusion foundation models. Utilizing diversified reward modeling, UniGRPO unifies post-training across both reasoning and generation tasks, ensuring consistent performance improvements. Experimental results demonstrate that MMaDA-8B exhibits strong generalization capabilities as a unified multimodal foundation model. It surpasses powerful models like LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in multimodal understanding, and excels over SDXL and Janus in text-to-image generation. These achievements highlight MMaDA's effectiveness in bridging the gap between pretraining and post-training within unified diffusion architectures, providing a comprehensive framework for future research and development. We open-source our code and trained models at: https://github.com/Gen-Verse/MMaDA

Summary

AI-Generated Summary

PDF643May 22, 2025