MMaDA: 멀티모달 대규모 확산 언어 모델
MMaDA: Multimodal Large Diffusion Language Models
May 21, 2025
저자: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI
초록
우리는 텍스트 추론, 멀티모달 이해, 텍스트-이미지 생성 등 다양한 영역에서 우수한 성능을 달성하기 위해 설계된 새로운 클래스의 멀티모달 디퓨전 기반 모델인 MMaDA를 소개합니다. 이 접근 방식은 세 가지 주요 혁신으로 구별됩니다: (i) MMaDA는 공유된 확률적 공식과 모달리티-불가지론적 설계를 갖춘 통합 디퓨전 아키텍처를 채택하여 모달리티별 구성 요소의 필요성을 제거합니다. 이 아키텍처는 다양한 데이터 유형 간의 원활한 통합과 처리를 보장합니다. (ii) 우리는 모달리티 간 통합 CoT(Chain-of-Thought) 형식을 정제하는 혼합 장기 CoT 미세 조정 전략을 구현합니다. 텍스트와 시각적 영역 간의 추론 프로세스를 정렬함으로써, 이 전략은 최종 강화 학습(RL) 단계를 위한 콜드 스타트 학습을 용이하게 하여 모델이 처음부터 복잡한 작업을 처리할 수 있는 능력을 향상시킵니다. (iii) 우리는 디퓨전 기반 모델에 특화된 통합 정책 기반 RL 알고리즘인 UniGRPO를 제안합니다. 다양한 보상 모델링을 활용하여 UniGRPO는 추론과 생성 작업 모두에 걸쳐 사후 학습을 통합하여 일관된 성능 향상을 보장합니다. 실험 결과는 MMaDA-8B가 통합 멀티모달 기반 모델로서 강력한 일반화 능력을 보여줌을 입증합니다. 이 모델은 텍스트 추론에서 LLaMA-3-7B와 Qwen2-7B와 같은 강력한 모델을 능가하고, 멀티모달 이해에서 Show-o와 SEED-X를 능가하며, 텍스트-이미지 생성에서 SDXL과 Janus를 능가합니다. 이러한 성과는 MMaDA가 통합 디퓨전 아키텍처 내에서 사전 학습과 사후 학습 간의 격차를 해소하는 데 효과적임을 강조하며, 향후 연구와 개발을 위한 포괄적인 프레임워크를 제공합니다. 우리는 코드와 학습된 모델을 https://github.com/Gen-Verse/MMaDA에서 오픈소스로 공개합니다.
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models
designed to achieve superior performance across diverse domains such as textual
reasoning, multimodal understanding, and text-to-image generation. The approach
is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion
architecture with a shared probabilistic formulation and a modality-agnostic
design, eliminating the need for modality-specific components. This
architecture ensures seamless integration and processing across different data
types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning
strategy that curates a unified CoT format across modalities. By aligning
reasoning processes between textual and visual domains, this strategy
facilitates cold-start training for the final reinforcement learning (RL)
stage, thereby enhancing the model's ability to handle complex tasks from the
outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm
specifically tailored for diffusion foundation models. Utilizing diversified
reward modeling, UniGRPO unifies post-training across both reasoning and
generation tasks, ensuring consistent performance improvements. Experimental
results demonstrate that MMaDA-8B exhibits strong generalization capabilities
as a unified multimodal foundation model. It surpasses powerful models like
LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in
multimodal understanding, and excels over SDXL and Janus in text-to-image
generation. These achievements highlight MMaDA's effectiveness in bridging the
gap between pretraining and post-training within unified diffusion
architectures, providing a comprehensive framework for future research and
development. We open-source our code and trained models at:
https://github.com/Gen-Verse/MMaDASummary
AI-Generated Summary