JMMMU-Pro: Evaluación de Comprensión Multimodal Multidisciplinaria en Japonés Basada en Imágenes mediante la Construcción del Benchmark Vibe
JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction
December 16, 2025
Autores: Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa
cs.AI
Resumen
Este artículo presenta JMMMU-Pro, un benchmark de comprensión multimodal basado en imágenes para múltiples disciplinas en japonés, y Vibe Benchmark Construction, un método de construcción escalable. Siguiendo la evolución de MMMU a MMMU-Pro, JMMMU-Pro extiende JMMMU integrando la imagen de la pregunta y el texto de la pregunta en una sola imagen, creando así un benchmark que requiere una comprensión visual-textual integrada a través de la percepción visual. Para construir JMMMU-Pro, proponemos Vibe Benchmark Construction, una metodología en la que un modelo generativo de imágenes (por ejemplo, Nano Banana Pro) produce preguntas visuales candidatas, y humanos verifican los resultados y, cuando es necesario, los regeneran con prompts ajustados para garantizar la calidad. Al aprovechar las capacidades de Nano Banana Pro para generar imágenes altamente realistas y su habilidad para incrustar texto japonés limpio, construimos un benchmark de alta calidad a bajo costo, que abarca una amplia gama de fondos y diseños de disposición. Los resultados experimentales muestran que todos los LMM de código abierto tienen dificultades significativas con JMMMU-Pro, subrayando que JMMMU-Pro es un benchmark importante para guiar los esfuerzos futuros en la comunidad de código abierto. Creemos que JMMMU-Pro proporciona una herramienta de evaluación más rigurosa para valorar las capacidades en japonés de los LMM y que nuestra Vibe Benchmark Construction también ofrece una guía eficiente para el desarrollo futuro de benchmarks de VQA basados en imágenes.
English
This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.