ChatPaper.aiChatPaper

JMMMU-Pro: Bildbasierter japanischer multidisziplinärer multimodaler Verständnis-Benchmark via Vibe-Benchmark-Konstruktion

JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction

December 16, 2025
papers.authors: Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa
cs.AI

papers.abstract

Dieses Papier stellt JMMMU-Pro vor, einen bildbasierten Benchmark für japanisches multidisziplinäres multimodales Verständnis, sowie Vibe Benchmark Construction, eine skalierbare Konstruktionsmethode. In Anlehnung an die Entwicklung von MMMU zu MMMU-Pro erweitert JMMMU-Pro JMMMU, indem die Fragenabbildung und der Fragentext zu einem einzigen Bild zusammengesetzt werden. Dadurch entsteht ein Benchmark, der ein integriertes visuell-textuelles Verständnis durch visuelle Wahrnehmung erfordert. Um JMMMU-Pro aufzubauen, schlagen wir Vibe Benchmark Construction vor, eine Methodik, bei der ein bildgenerierendes Modell (z.B. Nano Banana Pro) Kandidaten für visuelle Fragen erzeugt und Menschen die Ausgaben verifizieren sowie bei Bedarf mit angepassten Prompts neu generieren, um die Qualität zu sichern. Durch die Nutzung der hochrealistischen Bildgenerierungsfähigkeiten von Nano Banana Pro und seiner Fähigkeit, sauberen japanischen Text einzubetten, konstruieren wir einen hochwertigen Benchmark mit geringen Kosten, der eine breite Palette von Hintergrund- und Layout-Designs abdeckt. Experimentelle Ergebnisse zeigen, dass alle Open-Source-LMMs erheblich mit JMMMU-Pro zu kämpfen haben, was JMMMU-Pro als wichtigen Benchmark zur Orientierung zukünftiger Bemühungen in der Open-Source-Community unterstreicht. Wir sind überzeugt, dass JMMMU-Pro ein rigoroseres Bewertungswerkzeug zur Beurteilung der Japanisch-Fähigkeiten von LMMs bietet und dass unsere Vibe Benchmark Construction ebenfalls eine effiziente Richtlinie für die zukünftige Entwicklung bildbasierter VQA-Benchmarks darstellt.
English
This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.
PDF11December 18, 2025