MMaDA : Modèles de Langage Multimodaux à Grande Diffusion

papers.abstract

Nous présentons MMaDA, une nouvelle classe de modèles de fondation par diffusion multimodale conçus pour atteindre des performances supérieures dans divers domaines tels que le raisonnement textuel, la compréhension multimodale et la génération d'images à partir de texte. Cette approche se distingue par trois innovations clés : (i) MMaDA adopte une architecture de diffusion unifiée avec une formulation probabiliste partagée et une conception agnostique aux modalités, éliminant ainsi le besoin de composants spécifiques à chaque modalité. Cette architecture assure une intégration et un traitement fluides des différents types de données. (ii) Nous mettons en œuvre une stratégie de fine-tuning mixte à long enchaînement de pensées (CoT) qui établit un format CoT unifié à travers les modalités. En alignant les processus de raisonnement entre les domaines textuels et visuels, cette stratégie facilite l'entraînement à froid pour l'étape finale de renforcement par apprentissage (RL), améliorant ainsi la capacité du modèle à gérer des tâches complexes dès le départ. (iii) Nous proposons UniGRPO, un algorithme RL basé sur les gradients de politique spécialement adapté aux modèles de fondation par diffusion. En utilisant une modélisation diversifiée des récompenses, UniGRPO unifie le post-entraînement pour les tâches de raisonnement et de génération, garantissant des améliorations de performances cohérentes. Les résultats expérimentaux montrent que MMaDA-8B présente de solides capacités de généralisation en tant que modèle de fondation multimodale unifié. Il surpasse des modèles puissants comme LLaMA-3-7B et Qwen2-7B en raisonnement textuel, dépasse Show-o et SEED-X en compréhension multimodale, et excelle par rapport à SDXL et Janus en génération d'images à partir de texte. Ces réalisations mettent en évidence l'efficacité de MMaDA à combler le fossé entre le pré-entraînement et le post-entraînement au sein d'architectures de diffusion unifiées, offrant un cadre complet pour la recherche et le développement futurs. Nous rendons notre code et nos modèles entraînés disponibles en open-source à l'adresse suivante : https://github.com/Gen-Verse/MMaDA

English

We introduce MMaDA, a novel class of multimodal diffusion foundation models designed to achieve superior performance across diverse domains such as textual reasoning, multimodal understanding, and text-to-image generation. The approach is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion architecture with a shared probabilistic formulation and a modality-agnostic design, eliminating the need for modality-specific components. This architecture ensures seamless integration and processing across different data types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning strategy that curates a unified CoT format across modalities. By aligning reasoning processes between textual and visual domains, this strategy facilitates cold-start training for the final reinforcement learning (RL) stage, thereby enhancing the model's ability to handle complex tasks from the outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm specifically tailored for diffusion foundation models. Utilizing diversified reward modeling, UniGRPO unifies post-training across both reasoning and generation tasks, ensuring consistent performance improvements. Experimental results demonstrate that MMaDA-8B exhibits strong generalization capabilities as a unified multimodal foundation model. It surpasses powerful models like LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in multimodal understanding, and excels over SDXL and Janus in text-to-image generation. These achievements highlight MMaDA's effectiveness in bridging the gap between pretraining and post-training within unified diffusion architectures, providing a comprehensive framework for future research and development. We open-source our code and trained models at: https://github.com/Gen-Verse/MMaDA

MMaDA : Modèles de Langage Multimodaux à Grande Diffusion

MMaDA: Multimodal Large Diffusion Language Models

papers.abstract

Support