JMMMU-Pro : Benchmark de compréhension multimodale multidisciplinaire japonaise basée sur l'image via la construction de benchmark Vibe
JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction
December 16, 2025
papers.authors: Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa
cs.AI
papers.abstract
Ce document présente JMMMU-Pro, un benchmark japonais de compréhension multimodale multidisciplinaire basé sur l'image, ainsi que Vibe Benchmark Construction, une méthode de construction évolutive. Suivant l'évolution de MMMU vers MMMU-Pro, JMMMU-Pro étend JMMMU en fusionnant l'image de la question et le texte de la question en une seule image, créant ainsi un benchmark qui nécessite une compréhension intégrée visuo-textuelle via la perception visuelle. Pour construire JMMMU-Pro, nous proposons Vibe Benchmark Construction, une méthodologie dans laquelle un modèle génératif d'images (par exemple, Nano Banana Pro) produit des questions visuelles candidates, puis des humains vérifient les sorties et, si nécessaire, régénèrent les images avec des instructions ajustées pour garantir la qualité. En tirant parti des capacités de génération d'images hautement réalistes de Nano Banana Pro et de sa capacité à intégrer du texte japonais propre, nous construisons un benchmark de haute qualité à faible coût, couvrant un large éventail d'arrière-plans et de conceptions de mise en page. Les résultats expérimentaux montrent que tous les LMM open source éprouvent des difficultés considérables avec JMMMU-Pro, soulignant que JMMMU-Pro constitue un benchmark important pour orienter les futurs efforts de la communauté open source. Nous estimons que JMMMU-Pro fournit un outil d'évaluation plus rigoureux pour juger des capacités japonaises des LMM et que notre Vibe Benchmark Construction offre également une ligne directrice efficace pour le développement futur de benchmarks VQA basés sur l'image.
English
This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.