통합 멀티모달 모델 내 이해와 생성 간 격차 정량화
Quantifying the Gap between Understanding and Generation within Unified Multimodal Models
February 2, 2026
저자: Chenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou
cs.AI
초록
최근 통합 멀티모달 모델(UMM)의 발전은 이해와 생성 과제 모두에서 놀라운 진전을 보여주고 있습니다. 그러나 이 두 가지 능력이 단일 모델 내에서 진정으로 조화되고 통합되었는지는 여전히 불분명합니다. 이러한 의문을 탐구하기 위해 우리는 이해와 생성 능력 간의 격차를 정량화하고, 두 "통합" 방향의 인지적 일관성을 측정하기 위한 양방향 벤치마크인 GapEval을 소개합니다. 각 질문은 이미지와 텍스트 양쪽 양식으로 답변할 수 있어 모델의 양방향 추론 능력과 교차 모달 일관성을 대칭적으로 평가할 수 있습니다. 실험 결과, 다양한 아키텍처를 가진 광범위한 UMM에서 두 방향 간의 지속적인 격차가 나타나며, 이는 현재 모델들이 두 능력의 깊은 인지적 융합이 아닌 표면적인 통합에 그치고 있음을 시사합니다. 근본적인 메커니즘을 추가로 탐색하기 위해 우리는 잠재적 한계를 설명하기 위해 지식 조작의 관점에서 실증적 연구를 수행합니다. 우리의 연구 결과는 UMM 내의 지식이 종종 분리된 상태로 남아 있음을 지적합니다. 능력의 출현과 다양한 양식 간의 지식이 동기화되지 않아 향후 추가 탐구의 길을 열어줍니다.
English
Recent advances in unified multimodal models (UMM) have demonstrated remarkable progress in both understanding and generation tasks. However, whether these two capabilities are genuinely aligned and integrated within a single model remains unclear. To investigate this question, we introduce GapEval, a bidirectional benchmark designed to quantify the gap between understanding and generation capabilities, and quantitatively measure the cognitive coherence of the two "unified" directions. Each question can be answered in both modalities (image and text), enabling a symmetric evaluation of a model's bidirectional inference capability and cross-modal consistency. Experiments reveal a persistent gap between the two directions across a wide range of UMMs with different architectures, suggesting that current models achieve only surface-level unification rather than deep cognitive convergence of the two. To further explore the underlying mechanism, we conduct an empirical study from the perspective of knowledge manipulation to illustrate the underlying limitations. Our findings indicate that knowledge within UMMs often remains disjoint. The capability emergence and knowledge across modalities are unsynchronized, paving the way for further exploration.