MMaDA-Parallèle : Modèles de langage multimodaux à diffusion large pour l'édition et la génération avec conscience réflexive
MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
November 12, 2025
papers.authors: Ye Tian, Ling Yang, Jiongfan Yang, Anran Wang, Yu Tian, Jiani Zheng, Haochen Wang, Zhiyang Teng, Zhuochen Wang, Yinjie Wang, Yunhai Tong, Mengdi Wang, Xiangtai Li
cs.AI
papers.abstract
Alors que la génération avec raisonnement vise à améliorer les performances sur des tâches complexes, nous identifions un mode d'échec critique où les approches séquentielles autorégressives existantes peuvent paradoxalement dégrader les performances en raison de la propagation d'erreurs. Pour analyser systématiquement ce problème, nous proposons ParaBench, un nouveau benchmark conçu pour évaluer les modalités de sortie textuelle et image. Notre analyse utilisant ParaBench révèle que cette dégradation des performances est fortement corrélée avec un mauvais alignement entre le raisonnement généré et l'image finale. Pour résoudre ce problème, nous proposons un framework de diffusion multimodale parallèle, MMaDA-Parallel, qui permet une interaction continue et bidirectionnelle entre le texte et les images tout au long de la trajectoire de bruitage inverse. MMaDA-Parallel est entraîné par fine-tuning supervisé puis optimisé par l'Apprentissage par Renforcement Parallèle (ParaRL), une nouvelle stratégie qui applique des récompenses sémantiques le long de la trajectoire pour renforcer la cohérence intermodale. Les expériences valident que notre modèle améliore significativement l'alignement intermodal et la cohérence sémantique, obtenant une amélioration de 6,9 % de l'Alignement de Sortie sur ParaBench par rapport au modèle de l'état de l'art, Bagel, établissant un paradigme plus robuste pour la synthèse d'images avec raisonnement. Notre code est open-source à l'adresse https://github.com/tyfeld/MMaDA-Parallel.
English
While thinking-aware generation aims to improve performance on complex tasks, we identify a critical failure mode where existing sequential, autoregressive approaches can paradoxically degrade performance due to error propagation. To systematically analyze this issue, we propose ParaBench, a new benchmark designed to evaluate both text and image output modalities. Our analysis using ParaBench reveals that this performance degradation is strongly correlated with poor alignment between the generated reasoning and the final image. To resolve this, we propose a parallel multimodal diffusion framework, MMaDA-Parallel, that enables continuous, bidirectional interaction between text and images throughout the entire denoising trajectory. MMaDA-Parallel is trained with supervised finetuning and then further optimized by Parallel Reinforcement Learning (ParaRL), a novel strategy that applies semantic rewards along the trajectory to enforce cross-modal consistency. Experiments validate that our model significantly improves cross-modal alignment and semantic consistency, achieving a 6.9\% improvement in Output Alignment on ParaBench compared to the state-of-the-art model, Bagel, establishing a more robust paradigm for thinking-aware image synthesis. Our code is open-sourced at https://github.com/tyfeld/MMaDA-Parallel