ChatPaper.aiChatPaper

JMMMU-Pro: Benchmark di Comprensione Multimodale Multidisciplinare Giapponese Basato su Immagini tramite la Costruzione del Benchmark Vibe

JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction

December 16, 2025
Autori: Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa
cs.AI

Abstract

Questo articolo presenta JMMMU-Pro, un benchmark di comprensione multimodale multidisciplinare basato su immagini per la lingua giapponese, e Vibe Benchmark Construction, un metodo di costruzione scalabile. Seguendo l'evoluzione da MMMU a MMMU-Pro, JMMMU-Pro estende JMMMU componendo l'immagine della domanda e il testo della domanda in un'unica immagine, creando così un benchmark che richiede una comprensione visivo-testuale integrata attraverso la percezione visiva. Per costruire JMMMU-Pro, proponiamo Vibe Benchmark Construction, una metodologia in cui un modello generativo di immagini (ad esempio, Nano Banana Pro) produce domande visive candidate, e esseri umani verificano gli output e, quando necessario, rigenerano le immagini con prompt modificati per garantirne la qualità. Sfruttando le capacità di generazione di immagini altamente realistiche di Nano Banana Pro e la sua abilità di incorporare testo giapponese nitido, costruiamo un benchmark di alta qualità a basso costo, che copre un'ampia gamma di sfondi e layout. I risultati sperimentali mostrano che tutti i Modelli Linguistici Multimodali open-source incontrano notevoli difficoltà con JMMMU-Pro, sottolineando come JMMMU-Pro rappresenti un benchmark importante per guidare i futuri sforzi nella comunità open-source. Riteniamo che JMMMU-Pro fornisca uno strumento di valutazione più rigoroso per valutare le capacità in lingua giapponese dei Modelli Linguistici Multimodali e che la nostra Vibe Benchmark Construction offra anche una linea guida efficiente per lo sviluppo futuro di benchmark VQA basati su immagini.
English
This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.
PDF11December 18, 2025