ChatPaper.aiChatPaper

MMaDA-Parallel: Modelos de Lenguaje de Difusión Multimodales a Gran Escala para la Edición y Generación con Consciencia del Pensamiento

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

November 12, 2025
Autores: Ye Tian, Ling Yang, Jiongfan Yang, Anran Wang, Yu Tian, Jiani Zheng, Haochen Wang, Zhiyang Teng, Zhuochen Wang, Yinjie Wang, Yunhai Tong, Mengdi Wang, Xiangtai Li
cs.AI

Resumen

Si bien la generación consciente del pensamiento busca mejorar el rendimiento en tareas complejas, identificamos un modo de fallo crítico en el que los enfoques secuenciales y autoregresivos existentes pueden, paradójicamente, degradar el rendimiento debido a la propagación de errores. Para analizar sistemáticamente este problema, proponemos ParaBench, un nuevo benchmark diseñado para evaluar las modalidades de salida tanto de texto como de imagen. Nuestro análisis utilizando ParaBench revela que esta degradación del rendimiento está fuertemente correlacionada con una mala alineación entre el razonamiento generado y la imagen final. Para resolver esto, proponemos un marco de difusión multimodal paralelo, MMaDA-Parallel, que permite una interacción continua y bidireccional entre texto e imágenes a lo largo de toda la trayectoria de eliminación de ruido. MMaDA-Parallel se entrena con ajuste fino supervisado y luego se optimiza aún más mediante el Aprendizaje por Refuerzo Paralelo (ParaRL), una estrategia novedosa que aplica recompensas semánticas a lo largo de la trayectoria para imponer la consistencia cross-modal. Los experimentos validan que nuestro modelo mejora significativamente la alineación cross-modal y la coherencia semántica, logrando una mejora del 6.9% en Alineación de Salida en ParaBench en comparación con el modelo de vanguardia, Bagel, estableciendo un paradigma más robusto para la síntesis de imágenes consciente del pensamiento. Nuestro código es de código abierto en https://github.com/tyfeld/MMaDA-Parallel.
English
While thinking-aware generation aims to improve performance on complex tasks, we identify a critical failure mode where existing sequential, autoregressive approaches can paradoxically degrade performance due to error propagation. To systematically analyze this issue, we propose ParaBench, a new benchmark designed to evaluate both text and image output modalities. Our analysis using ParaBench reveals that this performance degradation is strongly correlated with poor alignment between the generated reasoning and the final image. To resolve this, we propose a parallel multimodal diffusion framework, MMaDA-Parallel, that enables continuous, bidirectional interaction between text and images throughout the entire denoising trajectory. MMaDA-Parallel is trained with supervised finetuning and then further optimized by Parallel Reinforcement Learning (ParaRL), a novel strategy that applies semantic rewards along the trajectory to enforce cross-modal consistency. Experiments validate that our model significantly improves cross-modal alignment and semantic consistency, achieving a 6.9\% improvement in Output Alignment on ParaBench compared to the state-of-the-art model, Bagel, establishing a more robust paradigm for thinking-aware image synthesis. Our code is open-sourced at https://github.com/tyfeld/MMaDA-Parallel
PDF673December 1, 2025