ChatPaper.aiChatPaper

Uni-MMMU: 대규모 다학제적 멀티모달 통합 벤치마크

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

October 15, 2025
저자: Kai Zou, Ziqi Huang, Yuhao Dong, Shulin Tian, Dian Zheng, Hongbo Liu, Jingwen He, Bin Liu, Yu Qiao, Ziwei Liu
cs.AI

초록

통합 멀티모달 모델은 시각적 이해와 생성을 동시에 가능하게 하는 것을 목표로 하지만, 현재의 벤치마크는 이들의 진정한 통합을 거의 검토하지 않는다. 기존 평가는 두 능력을 독립적으로 다루거나, 본질적으로 이들을 결합하는 과제를 간과한다. 이러한 격차를 해결하기 위해, 우리는 Uni-MMMU를 제안한다. 이는 과학, 코딩, 수학, 퍼즐 등 8개의 추론 중심 영역에 걸쳐 생성과 이해 간의 양방향 시너지를 체계적으로 펼치는 포괄적이고 학문적 인식이 반영된 벤치마크이다. 각 과제는 양방향으로 결합되어 있으며, 모델이 (i) 개념적 이해를 활용하여 정확한 시각적 합성을 안내하거나, (ii) 분석적 추론을 위한 인지적 발판으로 생성을 활용하도록 요구한다. Uni-MMMU는 검증 가능한 중간 추론 단계, 고유한 정답, 그리고 텍스트 및 시각적 출력 모두에 대한 재현 가능한 채점 프로토콜을 포함한다. 최첨단 통합 모델, 생성 전용 모델, 이해 전용 모델에 대한 광범위한 평가를 통해, 우리는 상당한 성능 격차와 교차 모달 의존성을 밝혀내며, 이러한 능력이 언제 그리고 어떻게 서로를 강화하는지에 대한 새로운 통찰을 제공하고, 통합 모델의 발전을 위한 신뢰할 수 있는 기반을 마련한다.
English
Unified multimodal models aim to jointly enable visual understanding and generation, yet current benchmarks rarely examine their true integration. Existing evaluations either treat the two abilities in isolation or overlook tasks that inherently couple them. To address this gap, we present Uni-MMMU, a comprehensive and discipline-aware benchmark that systematically unfolds the bidirectional synergy between generation and understanding across eight reasoning-centric domains, including science, coding, mathematics, and puzzles. Each task is bidirectionally coupled, demanding models to (i) leverage conceptual understanding to guide precise visual synthesis, or (ii) utilize generation as a cognitive scaffold for analytical reasoning. Uni-MMMU incorporates verifiable intermediate reasoning steps, unique ground truths, and a reproducible scoring protocol for both textual and visual outputs. Through extensive evaluation of state-of-the-art unified, generation-only, and understanding-only models, we reveal substantial performance disparities and cross-modal dependencies, offering new insights into when and how these abilities reinforce one another, and establishing a reliable foundation for advancing unified models.
PDF92October 16, 2025