JMMMU-Pro: Beeldgebaseerde Japanse Multidisciplinaire Multimodale Begripstestbank via Vibe Benchmark Constructie
JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction
December 16, 2025
Auteurs: Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa
cs.AI
Samenvatting
Dit artikel introduceert JMMMU-Pro, een op afbeeldingen gebaseerde Japanse multidisciplinaire multimodale begripstestbank, en Vibe Benchmark Construction, een schaalbare constructiemethode. In navolging van de evolutie van MMMU naar MMMU-Pro breidt JMMMU-Pro JMMMU uit door de vraagafbeelding en vraagtekst samen te voegen tot één enkele afbeelding, waardoor een benchmark ontstaat die geïntegreerd visueel-tekstueel begrip via visuele waarneming vereist. Voor de opbouw van JMMMU-Pro stellen we Vibe Benchmark Construction voor, een methodologie waarbij een beeldgenererend model (bijvoorbeeld Nano Banana Pro) kandidaat-visuele vragen produceert, en mensen de output verifiëren en indien nodig opnieuw genereren met aangepaste prompts om de kwaliteit te waarborgen. Door gebruik te maken van de zeer realistische beeldgeneratiecapaciteiten van Nano Banana Pro en het vermogen om schone Japanse tekst in te bedden, construeren we tegen lage kosten een hoogwaardige benchmark die een breed scala aan achtergronden en lay-outontwerpen bestrijkt. Experimentele resultaten tonen aan dat alle open-source LMM's aanzienlijk moeite hebben met JMMMU-Pro, wat JMMMU-Pro onderstreept als een belangrijke benchmark voor het leiden van toekomstige inspanningen in de open-sourcegemeenschap. Wij zijn van mening dat JMMMU-Pro een strenger evaluatie-instrument biedt voor het beoordelen van de Japanse capaciteiten van LMM's en dat onze Vibe Benchmark Construction ook een efficiënte richtlijn biedt voor de toekomstige ontwikkeling van op afbeeldingen gebaseerde VQA-benchmarks.
English
This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.