MMaDA-Parallel: Multimodale Große Diffusions-Sprachmodelle für denkbewusstes Editieren und Generieren
MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
November 12, 2025
papers.authors: Ye Tian, Ling Yang, Jiongfan Yang, Anran Wang, Yu Tian, Jiani Zheng, Haochen Wang, Zhiyang Teng, Zhuochen Wang, Yinjie Wang, Yunhai Tong, Mengdi Wang, Xiangtai Li
cs.AI
papers.abstract
Während denkbewusste Generierung darauf abzielt, die Leistung bei komplexen Aufgaben zu verbessern, identifizieren wir einen kritischen Fehlermodus, bei dem bestehende sequenzielle, autoregressive Ansätze die Leistung paradoxerweise aufgrund von Fehlerfortpflanzung verschlechtern können. Um dieses Problem systematisch zu analysieren, schlagen wir ParaBench vor, einen neuen Benchmark, der entwickelt wurde, um sowohl Text- als auch Bildausgabemodalitäten zu bewerten. Unsere Analyse mit ParaBench zeigt, dass diese Leistungsverschlechterung stark mit einer schlechten Ausrichtung zwischen der generierten Reasoning-Abläufe und dem endgültigen Bild korreliert. Um dies zu beheben, schlagen wir ein paralleles multimodales Diffusionsframework, MMaDA-Parallel, vor, das eine kontinuierliche, bidirektionale Interaktion zwischen Text und Bildern entlang der gesamten Denoising-Trajektorie ermöglicht. MMaDA-Parallel wird durch supervidiertes Finetuning trainiert und anschließend durch Paralleles Verstärkungslernen (Parallel Reinforcement Learning, ParaRL) weiter optimiert, eine neuartige Strategie, die semantische Belohnungen entlang der Trajektorie anwendet, um cross-modale Konsistenz zu erzwingen. Experimente bestätigen, dass unser Modell die cross-modale Ausrichtung und semantische Konsistenz signifikant verbessert und eine Steigerung der Output-Alignment-Metrik um 6,9 % auf ParaBench im Vergleich zum State-of-the-Art-Modell Bagel erreicht, wodurch ein robusteres Paradigma für denkbewusste Bildsynthese etabliert wird. Unser Code ist unter https://github.com/tyfeld/MMaDA-Parallel quelloffen verfügbar.
English
While thinking-aware generation aims to improve performance on complex tasks, we identify a critical failure mode where existing sequential, autoregressive approaches can paradoxically degrade performance due to error propagation. To systematically analyze this issue, we propose ParaBench, a new benchmark designed to evaluate both text and image output modalities. Our analysis using ParaBench reveals that this performance degradation is strongly correlated with poor alignment between the generated reasoning and the final image. To resolve this, we propose a parallel multimodal diffusion framework, MMaDA-Parallel, that enables continuous, bidirectional interaction between text and images throughout the entire denoising trajectory. MMaDA-Parallel is trained with supervised finetuning and then further optimized by Parallel Reinforcement Learning (ParaRL), a novel strategy that applies semantic rewards along the trajectory to enforce cross-modal consistency. Experiments validate that our model significantly improves cross-modal alignment and semantic consistency, achieving a 6.9\% improvement in Output Alignment on ParaBench compared to the state-of-the-art model, Bagel, establishing a more robust paradigm for thinking-aware image synthesis. Our code is open-sourced at https://github.com/tyfeld/MMaDA-Parallel