단일 모달 모델 통합을 위한 유일한 해결책은 아키텍처 디커플링이 아니다
Architecture Decoupling Is Not All You Need For Unified Multimodal Model
November 27, 2025
저자: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li
cs.AI
초록
이미지 생성과 이해를 위한 통합 멀티모달 모델은 AGI로 나아가는 중요한 단계를 나타내며 연구자들의 폭넓은 관심을 끌고 있습니다. 이 과제의 주요 난제는 생성과 이해 과제 간의 본질적인 목표 상충으로 인해 최적의 훈련 패러다임을 수립하기 어렵다는 점에 있습니다. 이러한 상충을 완화하고 더 높은 성능을 추구하기 위해 많은 연구자들이 다양한 수준의 모델 디커플링(예: 이중 이미지 인코더, MOE/MOT 아키텍처, 고정 MLLM)을 채택하고 있습니다. 그러나 과도한 모델 디커플링은 인터리브 생성 능력의 상실을 초래하여 통합 모델의 본래 의도를 훼손할 수 있습니다. 본 연구에서는 모델 디커플링에 의존하지 않고 과제 상충을 완화하는 방법을 탐구하고자 합니다. 먼저, 모델의 크로스모달 어텐션 동작을 연구하여 디커플링이 왜 상충을 완화하는지 분석합니다. 우리는 모델 디커플링이 본질적으로 Qwen-VL와 HunyuanImage에서 볼 수 있듯이 모델이 과제 특화 멀티모달 상호작용 패턴을 따르도록 유도하며, 디커플링이 더 철저할수록 동작이 더 일관되게 나타난다는 사실을 관찰했습니다. 이 관찰에 동기를 받아, 우리는 훈련 중에 과제 특화 멀티모달 상호작용 패턴을 명시적으로 학습하는 어텐션 상호작용 정렬(AIA) 손실을 제안합니다. 우리의 AIA 손실의 일반화 가능성을 입증하기 위해, 이를 Emu3에는 SFT 단계에서, Janus-Pro에는 사후 훈련 단계에서 각각 적용합니다. 별다른 기법 없이도 AIA는 크로스모달 어텐션 패턴을 개선할 뿐만 아니라 생성과 이해 성능 모두를 향상시킵니다.
English
Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.