Uni-MMMU: Um Benchmark Unificado Multimodal e Multidisciplinar em Grande Escala
Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark
October 15, 2025
Autores: Kai Zou, Ziqi Huang, Yuhao Dong, Shulin Tian, Dian Zheng, Hongbo Liu, Jingwen He, Bin Liu, Yu Qiao, Ziwei Liu
cs.AI
Resumo
Modelos multimodais unificados visam habilitar conjuntamente a compreensão e a geração visual, mas os benchmarks atuais raramente examinam sua verdadeira integração. As avaliações existentes tratam as duas habilidades de forma isolada ou ignoram tarefas que as acoplam intrinsecamente. Para abordar essa lacuna, apresentamos o Uni-MMMU, um benchmark abrangente e consciente da disciplina que desdobra sistematicamente a sinergia bidirecional entre geração e compreensão em oito domínios centrados em raciocínio, incluindo ciência, programação, matemática e quebra-cabeças. Cada tarefa é bidirecionalmente acoplada, exigindo que os modelos (i) aproveitem a compreensão conceitual para guiar a síntese visual precisa ou (ii) utilizem a geração como um andaime cognitivo para o raciocínio analítico. O Uni-MMMU incorpora etapas intermediárias de raciocínio verificáveis, verdades fundamentais únicas e um protocolo de pontuação reproduzível para saídas textuais e visuais. Por meio de uma avaliação extensiva de modelos unificados, apenas de geração e apenas de compreensão de última geração, revelamos disparidades substanciais de desempenho e dependências cross-modais, oferecendo novos insights sobre quando e como essas habilidades se reforçam mutuamente, e estabelecendo uma base confiável para o avanço de modelos unificados.
English
Unified multimodal models aim to jointly enable visual understanding and
generation, yet current benchmarks rarely examine their true integration.
Existing evaluations either treat the two abilities in isolation or overlook
tasks that inherently couple them. To address this gap, we present Uni-MMMU, a
comprehensive and discipline-aware benchmark that systematically unfolds the
bidirectional synergy between generation and understanding across eight
reasoning-centric domains, including science, coding, mathematics, and puzzles.
Each task is bidirectionally coupled, demanding models to (i) leverage
conceptual understanding to guide precise visual synthesis, or (ii) utilize
generation as a cognitive scaffold for analytical reasoning. Uni-MMMU
incorporates verifiable intermediate reasoning steps, unique ground truths, and
a reproducible scoring protocol for both textual and visual outputs. Through
extensive evaluation of state-of-the-art unified, generation-only, and
understanding-only models, we reveal substantial performance disparities and
cross-modal dependencies, offering new insights into when and how these
abilities reinforce one another, and establishing a reliable foundation for
advancing unified models.