UniG2U-Bench: 통합 모델은 다중모드 이해를 발전시키는가?
UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?
March 3, 2026
저자: Zimo Wen, Boxiu Li, Wanbo Zhang, Junxiang Lei, Xiaoyu Chen, Yijia Fan, Qi Zhang, Yujiang Wang, Lili Qiu, Bo Li, Ziwei Liu, Caihua Shan, Yifan Yang, Yifei Shen
cs.AI
초록
통합 멀티모달 모델은 최근 강력한 생성 능력을 보여주고 있으나, 생성이 이해를 향상시키는지 여부와 그 시점은 여전히 불분명합니다. 기존 벤치마크는 생성이 이해를 촉진하는 구체적인 과제에 대한 체계적인 탐구가 부족합니다. 이를 위해 우리는 생성-이해(G2U) 평가를 7개 영역과 30개 세부 과제로 범주화한 포괄적인 벤치마크인 UniG2U-Bench를 소개합니다. 이는 다양한 수준의 암묵적 또는 명시적 시각 변환을 요구합니다. 30개 이상의 모델에 대한 광범위한 평가를 통해 세 가지 핵심 결과를 도출했습니다: 1) 통합 모델은 일반적으로 기반 시각-언어 모델(VLM)보다 성능이 낮으며, 생성-후-답변(GtA) 추론은 직접 추론 대비 일반적으로 성능을 저하시킵니다. 2) 공간 지능, 시각적 착시, 또는 다중 라운드 추론 세부 과제에서 일관된 향상이 나타나며, 여기서 향상된 공간 및 형태 인지와 다단계 중간 이미지 상태가 유익한 것으로 입증되었습니다. 3) 유사한 추론 구조를 가진 과제와 아키텍처를 공유하는 모델은 상관된 행동을 보여, 생성-이해 결합이 과제, 사전 학습 데이터 및 모델 아키텍처에 걸쳐 클래스 일관적 귀납 편향을 유발함을 시사합니다. 이러한 결과는 통합 멀티모달 모델링의 잠재력을 완전히 끌어내기 위해 보다 다양한 학습 데이터와 새로운 패러다임의 필요성을 강조합니다.
English
Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.