MMaDA : Modèles de Langage Multimodaux à Grande Diffusion
MMaDA: Multimodal Large Diffusion Language Models
May 21, 2025
Auteurs: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
cs.AI
Résumé
Nous présentons MMaDA, une nouvelle classe de modèles de fondation par diffusion multimodale conçus pour atteindre des performances supérieures dans divers domaines tels que le raisonnement textuel, la compréhension multimodale et la génération d'images à partir de texte. Cette approche se distingue par trois innovations clés : (i) MMaDA adopte une architecture de diffusion unifiée avec une formulation probabiliste partagée et une conception agnostique aux modalités, éliminant ainsi le besoin de composants spécifiques à chaque modalité. Cette architecture assure une intégration et un traitement fluides des différents types de données. (ii) Nous mettons en œuvre une stratégie de fine-tuning mixte à long enchaînement de pensées (CoT) qui établit un format CoT unifié à travers les modalités. En alignant les processus de raisonnement entre les domaines textuels et visuels, cette stratégie facilite l'entraînement à froid pour l'étape finale de renforcement par apprentissage (RL), améliorant ainsi la capacité du modèle à gérer des tâches complexes dès le départ. (iii) Nous proposons UniGRPO, un algorithme RL basé sur les gradients de politique spécialement adapté aux modèles de fondation par diffusion. En utilisant une modélisation diversifiée des récompenses, UniGRPO unifie le post-entraînement pour les tâches de raisonnement et de génération, garantissant des améliorations de performances cohérentes. Les résultats expérimentaux montrent que MMaDA-8B présente de solides capacités de généralisation en tant que modèle de fondation multimodale unifié. Il surpasse des modèles puissants comme LLaMA-3-7B et Qwen2-7B en raisonnement textuel, dépasse Show-o et SEED-X en compréhension multimodale, et excelle par rapport à SDXL et Janus en génération d'images à partir de texte. Ces réalisations mettent en évidence l'efficacité de MMaDA à combler le fossé entre le pré-entraînement et le post-entraînement au sein d'architectures de diffusion unifiées, offrant un cadre complet pour la recherche et le développement futurs. Nous rendons notre code et nos modèles entraînés disponibles en open-source à l'adresse suivante : https://github.com/Gen-Verse/MMaDA
English
We introduce MMaDA, a novel class of multimodal diffusion foundation models
designed to achieve superior performance across diverse domains such as textual
reasoning, multimodal understanding, and text-to-image generation. The approach
is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion
architecture with a shared probabilistic formulation and a modality-agnostic
design, eliminating the need for modality-specific components. This
architecture ensures seamless integration and processing across different data
types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning
strategy that curates a unified CoT format across modalities. By aligning
reasoning processes between textual and visual domains, this strategy
facilitates cold-start training for the final reinforcement learning (RL)
stage, thereby enhancing the model's ability to handle complex tasks from the
outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm
specifically tailored for diffusion foundation models. Utilizing diversified
reward modeling, UniGRPO unifies post-training across both reasoning and
generation tasks, ensuring consistent performance improvements. Experimental
results demonstrate that MMaDA-8B exhibits strong generalization capabilities
as a unified multimodal foundation model. It surpasses powerful models like
LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in
multimodal understanding, and excels over SDXL and Janus in text-to-image
generation. These achievements highlight MMaDA's effectiveness in bridging the
gap between pretraining and post-training within unified diffusion
architectures, providing a comprehensive framework for future research and
development. We open-source our code and trained models at:
https://github.com/Gen-Verse/MMaDASummary
AI-Generated Summary