ChatPaper.aiChatPaper

Uni-MMMU: Un Benchmark Masivo Multidisciplinario y Multimodal Unificado

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

October 15, 2025
Autores: Kai Zou, Ziqi Huang, Yuhao Dong, Shulin Tian, Dian Zheng, Hongbo Liu, Jingwen He, Bin Liu, Yu Qiao, Ziwei Liu
cs.AI

Resumen

Los modelos multimodales unificados buscan habilitar conjuntamente la comprensión y generación visual, sin embargo, los puntos de referencia actuales rara vez examinan su verdadera integración. Las evaluaciones existentes tratan las dos capacidades de forma aislada o pasan por alto tareas que inherentemente las acoplan. Para abordar esta brecha, presentamos Uni-MMMU, un punto de referencia integral y consciente de la disciplina que despliega sistemáticamente la sinergia bidireccional entre generación y comprensión en ocho dominios centrados en el razonamiento, incluyendo ciencia, programación, matemáticas y acertijos. Cada tarea está acoplada bidireccionalmente, exigiendo que los modelos (i) aprovechen la comprensión conceptual para guiar una síntesis visual precisa, o (ii) utilicen la generación como un andamiaje cognitivo para el razonamiento analítico. Uni-MMMU incorpora pasos intermedios de razonamiento verificables, verdades únicas y un protocolo de puntuación reproducible tanto para salidas textuales como visuales. A través de una evaluación extensa de modelos unificados, de solo generación y de solo comprensión de última generación, revelamos disparidades sustanciales de rendimiento y dependencias cruzadas entre modalidades, ofreciendo nuevas perspectivas sobre cuándo y cómo estas capacidades se refuerzan mutuamente, y estableciendo una base confiable para el avance de modelos unificados.
English
Unified multimodal models aim to jointly enable visual understanding and generation, yet current benchmarks rarely examine their true integration. Existing evaluations either treat the two abilities in isolation or overlook tasks that inherently couple them. To address this gap, we present Uni-MMMU, a comprehensive and discipline-aware benchmark that systematically unfolds the bidirectional synergy between generation and understanding across eight reasoning-centric domains, including science, coding, mathematics, and puzzles. Each task is bidirectionally coupled, demanding models to (i) leverage conceptual understanding to guide precise visual synthesis, or (ii) utilize generation as a cognitive scaffold for analytical reasoning. Uni-MMMU incorporates verifiable intermediate reasoning steps, unique ground truths, and a reproducible scoring protocol for both textual and visual outputs. Through extensive evaluation of state-of-the-art unified, generation-only, and understanding-only models, we reveal substantial performance disparities and cross-modal dependencies, offering new insights into when and how these abilities reinforce one another, and establishing a reliable foundation for advancing unified models.
PDF92October 16, 2025