MMaDA: Modelos de Linguagem Multimodais de Grande Escala Baseados em Difusão
MMaDA: Multimodal Large Diffusion Language Models
May 21, 2025
Autores: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI
Resumo
Apresentamos o MMaDA, uma nova classe de modelos de fundação de difusão multimodal projetados para alcançar desempenho superior em diversos domínios, como raciocínio textual, compreensão multimodal e geração de texto para imagem. A abordagem é diferenciada por três inovações principais: (i) O MMaDA adota uma arquitetura de difusão unificada com uma formulação probabilística compartilhada e um design agnóstico à modalidade, eliminando a necessidade de componentes específicos para cada modalidade. Essa arquitetura garante integração e processamento contínuos entre diferentes tipos de dados. (ii) Implementamos uma estratégia de ajuste fino de cadeia de pensamento (CoT) mista e longa que organiza um formato unificado de CoT entre modalidades. Ao alinhar os processos de raciocínio entre os domínios textual e visual, essa estratégia facilita o treinamento de partida a frio para a etapa final de aprendizado por reforço (RL), aprimorando assim a capacidade do modelo de lidar com tarefas complexas desde o início. (iii) Propomos o UniGRPO, um algoritmo de RL baseado em gradiente de política unificado, especificamente adaptado para modelos de fundação de difusão. Utilizando modelagem de recompensa diversificada, o UniGRPO unifica o pós-treinamento em tarefas de raciocínio e geração, garantindo melhorias consistentes de desempenho. Resultados experimentais demonstram que o MMaDA-8B exibe fortes capacidades de generalização como um modelo de fundação multimodal unificado. Ele supera modelos poderosos como o LLaMA-3-7B e o Qwen2-7B em raciocínio textual, supera o Show-o e o SEED-X em compreensão multimodal e se destaca em relação ao SDXL e ao Janus na geração de texto para imagem. Essas conquistas destacam a eficácia do MMaDA em preencher a lacuna entre pré-treinamento e pós-treinamento dentro de arquiteturas de difusão unificadas, fornecendo uma estrutura abrangente para pesquisas e desenvolvimentos futuros. Disponibilizamos nosso código e modelos treinados em: https://github.com/Gen-Verse/MMaDA.
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models
designed to achieve superior performance across diverse domains such as textual
reasoning, multimodal understanding, and text-to-image generation. The approach
is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion
architecture with a shared probabilistic formulation and a modality-agnostic
design, eliminating the need for modality-specific components. This
architecture ensures seamless integration and processing across different data
types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning
strategy that curates a unified CoT format across modalities. By aligning
reasoning processes between textual and visual domains, this strategy
facilitates cold-start training for the final reinforcement learning (RL)
stage, thereby enhancing the model's ability to handle complex tasks from the
outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm
specifically tailored for diffusion foundation models. Utilizing diversified
reward modeling, UniGRPO unifies post-training across both reasoning and
generation tasks, ensuring consistent performance improvements. Experimental
results demonstrate that MMaDA-8B exhibits strong generalization capabilities
as a unified multimodal foundation model. It surpasses powerful models like
LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in
multimodal understanding, and excels over SDXL and Janus in text-to-image
generation. These achievements highlight MMaDA's effectiveness in bridging the
gap between pretraining and post-training within unified diffusion
architectures, providing a comprehensive framework for future research and
development. We open-source our code and trained models at:
https://github.com/Gen-Verse/MMaDA