MMaDA-Paralelo: Modelos de Linguagem de Difusão em Larga Escala Multimodal para Edição e Geração com Consciência do Pensamento
MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
November 12, 2025
Autores: Ye Tian, Ling Yang, Jiongfan Yang, Anran Wang, Yu Tian, Jiani Zheng, Haochen Wang, Zhiyang Teng, Zhuochen Wang, Yinjie Wang, Yunhai Tong, Mengdi Wang, Xiangtai Li
cs.AI
Resumo
Embora a geração com consciência do raciocínio vise melhorar o desempenho em tarefas complexas, identificamos uma falha crítica na qual as abordagens sequenciais e autoregressivas existentes podem, paradoxalmente, degradar o desempenho devido à propagação de erros. Para analisar sistematicamente esta questão, propomos o ParaBench, um novo benchmark concebido para avaliar as modalidades de saída de texto e imagem. A nossa análise utilizando o ParaBench revela que esta degradação de desempenho está fortemente correlacionada com um baixo alinhamento entre o raciocínio gerado e a imagem final. Para resolver isto, propomos uma estrutura de difusão multimodal paralela, a MMaDA-Parallel, que permite uma interação contínua e bidirecional entre texto e imagens ao longo de toda a trajetória de remoção de ruído. A MMaDA-Parallel é treinada com afinação supervisionada e depois otimizada através do Aprendizado por Reforço Paralelo (ParaRL), uma estratégia inovadora que aplica recompensas semânticas ao longo da trajetória para impor consistência cross-modal. Experiências validam que o nosso modelo melhora significativamente o alinhamento cross-modal e a consistência semântica, alcançando uma melhoria de 6,9% no Alinhamento da Saída no ParaBench em comparação com o modelo state-of-the-art, Bagel, estabelecendo um paradigma mais robusto para a síntese de imagens com consciência do raciocínio. O nosso código é de código aberto em https://github.com/tyfeld/MMaDA-Parallel.
English
While thinking-aware generation aims to improve performance on complex tasks, we identify a critical failure mode where existing sequential, autoregressive approaches can paradoxically degrade performance due to error propagation. To systematically analyze this issue, we propose ParaBench, a new benchmark designed to evaluate both text and image output modalities. Our analysis using ParaBench reveals that this performance degradation is strongly correlated with poor alignment between the generated reasoning and the final image. To resolve this, we propose a parallel multimodal diffusion framework, MMaDA-Parallel, that enables continuous, bidirectional interaction between text and images throughout the entire denoising trajectory. MMaDA-Parallel is trained with supervised finetuning and then further optimized by Parallel Reinforcement Learning (ParaRL), a novel strategy that applies semantic rewards along the trajectory to enforce cross-modal consistency. Experiments validate that our model significantly improves cross-modal alignment and semantic consistency, achieving a 6.9\% improvement in Output Alignment on ParaBench compared to the state-of-the-art model, Bagel, establishing a more robust paradigm for thinking-aware image synthesis. Our code is open-sourced at https://github.com/tyfeld/MMaDA-Parallel