Uni-MMMU: Um Benchmark Unificado Multimodal e Multidisciplinar em Grande Escala

Resumo

Modelos multimodais unificados visam habilitar conjuntamente a compreensão e a geração visual, mas os benchmarks atuais raramente examinam sua verdadeira integração. As avaliações existentes tratam as duas habilidades de forma isolada ou ignoram tarefas que as acoplam intrinsecamente. Para abordar essa lacuna, apresentamos o Uni-MMMU, um benchmark abrangente e consciente da disciplina que desdobra sistematicamente a sinergia bidirecional entre geração e compreensão em oito domínios centrados em raciocínio, incluindo ciência, programação, matemática e quebra-cabeças. Cada tarefa é bidirecionalmente acoplada, exigindo que os modelos (i) aproveitem a compreensão conceitual para guiar a síntese visual precisa ou (ii) utilizem a geração como um andaime cognitivo para o raciocínio analítico. O Uni-MMMU incorpora etapas intermediárias de raciocínio verificáveis, verdades fundamentais únicas e um protocolo de pontuação reproduzível para saídas textuais e visuais. Por meio de uma avaliação extensiva de modelos unificados, apenas de geração e apenas de compreensão de última geração, revelamos disparidades substanciais de desempenho e dependências cross-modais, oferecendo novos insights sobre quando e como essas habilidades se reforçam mutuamente, e estabelecendo uma base confiável para o avanço de modelos unificados.

English

Unified multimodal models aim to jointly enable visual understanding and generation, yet current benchmarks rarely examine their true integration. Existing evaluations either treat the two abilities in isolation or overlook tasks that inherently couple them. To address this gap, we present Uni-MMMU, a comprehensive and discipline-aware benchmark that systematically unfolds the bidirectional synergy between generation and understanding across eight reasoning-centric domains, including science, coding, mathematics, and puzzles. Each task is bidirectionally coupled, demanding models to (i) leverage conceptual understanding to guide precise visual synthesis, or (ii) utilize generation as a cognitive scaffold for analytical reasoning. Uni-MMMU incorporates verifiable intermediate reasoning steps, unique ground truths, and a reproducible scoring protocol for both textual and visual outputs. Through extensive evaluation of state-of-the-art unified, generation-only, and understanding-only models, we reveal substantial performance disparities and cross-modal dependencies, offering new insights into when and how these abilities reinforce one another, and establishing a reliable foundation for advancing unified models.

Uni-MMMU: Um Benchmark Unificado Multimodal e Multidisciplinar em Grande Escala

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

Resumo

Support