MMaDA: Мультимодальные крупные диффузионные языковые модели
MMaDA: Multimodal Large Diffusion Language Models
May 21, 2025
Авторы: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI
Аннотация
Мы представляем MMaDA, новый класс мультимодальных диффузионных базовых моделей, разработанных для достижения превосходной производительности в различных областях, таких как текстовое рассуждение, мультимодальное понимание и генерация изображений по тексту. Этот подход выделяется тремя ключевыми инновациями: (i) MMaDA использует унифицированную диффузионную архитектуру с общей вероятностной формулировкой и модально-независимым дизайном, что устраняет необходимость в компонентах, специфичных для каждой модальности. Такая архитектура обеспечивает бесшовную интеграцию и обработку различных типов данных. (ii) Мы применяем стратегию тонкой настройки с использованием смешанной длинной цепочки рассуждений (CoT), которая создает унифицированный формат CoT для всех модальностей. Согласование процессов рассуждения в текстовой и визуальной областях облегчает обучение на начальном этапе перед финальной стадией обучения с подкреплением (RL), что повышает способность модели справляться со сложными задачами с самого начала. (iii) Мы предлагаем UniGRPO, унифицированный алгоритм RL на основе градиента политики, специально адаптированный для диффузионных базовых моделей. Используя диверсифицированное моделирование вознаграждений, UniGRPO объединяет пост-обучение для задач рассуждения и генерации, обеспечивая стабильное улучшение производительности. Экспериментальные результаты показывают, что MMaDA-8B демонстрирует сильные обобщающие способности как унифицированная мультимодальная базовая модель. Она превосходит мощные модели, такие как LLaMA-3-7B и Qwen2-7B, в текстовом рассуждении, опережает Show-o и SEED-X в мультимодальном понимании и превосходит SDXL и Janus в генерации изображений по тексту. Эти достижения подчеркивают эффективность MMaDA в устранении разрыва между предварительным и пост-обучением в рамках унифицированных диффузионных архитектур, предоставляя всеобъемлющую основу для будущих исследований и разработок. Мы открываем исходный код и обученные модели по адресу: https://github.com/Gen-Verse/MMaDA.
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models
designed to achieve superior performance across diverse domains such as textual
reasoning, multimodal understanding, and text-to-image generation. The approach
is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion
architecture with a shared probabilistic formulation and a modality-agnostic
design, eliminating the need for modality-specific components. This
architecture ensures seamless integration and processing across different data
types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning
strategy that curates a unified CoT format across modalities. By aligning
reasoning processes between textual and visual domains, this strategy
facilitates cold-start training for the final reinforcement learning (RL)
stage, thereby enhancing the model's ability to handle complex tasks from the
outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm
specifically tailored for diffusion foundation models. Utilizing diversified
reward modeling, UniGRPO unifies post-training across both reasoning and
generation tasks, ensuring consistent performance improvements. Experimental
results demonstrate that MMaDA-8B exhibits strong generalization capabilities
as a unified multimodal foundation model. It surpasses powerful models like
LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in
multimodal understanding, and excels over SDXL and Janus in text-to-image
generation. These achievements highlight MMaDA's effectiveness in bridging the
gap between pretraining and post-training within unified diffusion
architectures, providing a comprehensive framework for future research and
development. We open-source our code and trained models at:
https://github.com/Gen-Verse/MMaDASummary
AI-Generated Summary