MMaDA-Parallel: 사고 인식 편집 및 생성을 위한 멀티모달 대규모 확산 언어 모델
MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
November 12, 2025
저자: Ye Tian, Ling Yang, Jiongfan Yang, Anran Wang, Yu Tian, Jiani Zheng, Haochen Wang, Zhiyang Teng, Zhuochen Wang, Yinjie Wang, Yunhai Tong, Mengdi Wang, Xiangtai Li
cs.AI
초록
사고 인식 생성이 복잡한 작업의 성능 향상을 목표로 하지만, 우리는 기존의 순차적 자동회귀 접근법이 오류 전파로 인해 오히려 성능을 저하시키는 역설적인 실패 모드를 확인했습니다. 이 문제를 체계적으로 분석하기 위해 텍스트와 이미지 출력 양식을 모두 평가하도록 설계된 새로운 벤치마크인 ParaBench을 제안합니다. ParaBench을 활용한 분석 결과, 이러한 성능 저하가 생성된 추론 과정과 최종 이미지 간의 낮은 정렬도와 강한 상관관계가 있음을 밝혀냈습니다. 이를 해결하기 위해 우리는 전체 노이즈 제거 궤적에 걸쳐 텍스트와 이미지 간의 지속적이고 양방향적인 상호작용을 가능하게 하는 병렬 멀티모달 확산 프레임워크인 MMaDA-Parallel을 제안합니다. MMaDA-Parallel은 지도 미세 조정으로 학습된 후, 궤적을 따라 의미론적 보상을 적용하여 교차 모달 일관성을 강화하는 새로운 전략인 병렬 강화 학습(ParaRL)을 통해 추가로 최적화됩니다. 실험을 통해 우리 모델이 교차 모달 정렬도와 의미론적 일관성을 크게 개선하며, 최첨단 모델인 Bagel 대비 ParaBench에서 출력 정렬도 기준 6.9% 향상을 달성하여 더욱 견고한 사고 인식 이미지 합성 패러다임을 정립함을 입증했습니다. 우리의 코드는 https://github.com/tyfeld/MMaDA-Parallel에서 공개되었습니다.
English
While thinking-aware generation aims to improve performance on complex tasks, we identify a critical failure mode where existing sequential, autoregressive approaches can paradoxically degrade performance due to error propagation. To systematically analyze this issue, we propose ParaBench, a new benchmark designed to evaluate both text and image output modalities. Our analysis using ParaBench reveals that this performance degradation is strongly correlated with poor alignment between the generated reasoning and the final image. To resolve this, we propose a parallel multimodal diffusion framework, MMaDA-Parallel, that enables continuous, bidirectional interaction between text and images throughout the entire denoising trajectory. MMaDA-Parallel is trained with supervised finetuning and then further optimized by Parallel Reinforcement Learning (ParaRL), a novel strategy that applies semantic rewards along the trajectory to enforce cross-modal consistency. Experiments validate that our model significantly improves cross-modal alignment and semantic consistency, achieving a 6.9\% improvement in Output Alignment on ParaBench compared to the state-of-the-art model, Bagel, establishing a more robust paradigm for thinking-aware image synthesis. Our code is open-sourced at https://github.com/tyfeld/MMaDA-Parallel