MMaDA-Parallelo: Modelli Linguistici Multimodali di Diffusione su Larga Scala per l'Editing e la Generazione Consapevoli del Pensiero
MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
November 12, 2025
Autori: Ye Tian, Ling Yang, Jiongfan Yang, Anran Wang, Yu Tian, Jiani Zheng, Haochen Wang, Zhiyang Teng, Zhuochen Wang, Yinjie Wang, Yunhai Tong, Mengdi Wang, Xiangtai Li
cs.AI
Abstract
Mentre la generazione consapevole del ragionamento mira a migliorare le prestazioni su compiti complessi, identifichiamo una modalità di fallimento critica in cui gli approcci sequenziali autoregressivi esistenti possono paradossalmente degradare le prestazioni a causa della propagazione degli errori. Per analizzare sistematicamente questo problema, proponiamo ParaBench, un nuovo benchmark progettato per valutare sia le modalità di output testuale che visivo. La nostra analisi condotta con ParaBench rivela che questo degrado delle prestazioni è fortemente correlato a uno scarso allineamento tra il ragionamento generato e l'immagine finale. Per risolvere ciò, proponiamo un framework di diffusione multimodale parallelo, MMaDA-Parallel, che abilita un'interazione continua e bidirezionale tra testo e immagini lungo l'intera traiettoria di denoising. MMaDA-Parallel viene addestrato con fine-tuning supervisionato e poi ulteriormente ottimizzato tramite Parallel Reinforcement Learning (ParaRL), una strategia innovativa che applica ricompense semantiche lungo la traiettoria per imporre la consistenza cross-modale. Gli esperimenti convalidano che il nostro modello migliora significativamente l'allineamento cross-modale e la coerenza semantica, ottenendo un miglioramento del 6,9% nell'Allineamento dell'Output su ParaBench rispetto al modello state-of-the-art Bagel, stabilendo un paradigma più robusto per la sintesi di immagini consapevole del ragionamento. Il nostro codice è open-source all'indirizzo https://github.com/tyfeld/MMaDA-Parallel.
English
While thinking-aware generation aims to improve performance on complex tasks, we identify a critical failure mode where existing sequential, autoregressive approaches can paradoxically degrade performance due to error propagation. To systematically analyze this issue, we propose ParaBench, a new benchmark designed to evaluate both text and image output modalities. Our analysis using ParaBench reveals that this performance degradation is strongly correlated with poor alignment between the generated reasoning and the final image. To resolve this, we propose a parallel multimodal diffusion framework, MMaDA-Parallel, that enables continuous, bidirectional interaction between text and images throughout the entire denoising trajectory. MMaDA-Parallel is trained with supervised finetuning and then further optimized by Parallel Reinforcement Learning (ParaRL), a novel strategy that applies semantic rewards along the trajectory to enforce cross-modal consistency. Experiments validate that our model significantly improves cross-modal alignment and semantic consistency, achieving a 6.9\% improvement in Output Alignment on ParaBench compared to the state-of-the-art model, Bagel, establishing a more robust paradigm for thinking-aware image synthesis. Our code is open-sourced at https://github.com/tyfeld/MMaDA-Parallel