JMMMU-Pro: Бенчмарк для многодисциплинарного мультимодального понимания японского языка на основе изображений, созданный через Vibe Benchmark Construction
JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction
December 16, 2025
Авторы: Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa
cs.AI
Аннотация
В данной статье представлены JMMMU-Pro — бенчмарк для оценки японского междисциплинарного мультимодального понимания на основе изображений — и Vibe Benchmark Construction, масштабируемый метод построения таких бенчмарков. Развивая идею эволюции от MMMU к MMMU-Pro, JMMMU-Pro расширяет JMMU путем объединения изображения-вопроса и текста вопроса в единое изображение, создавая таким образом бенчмарк, требующий интегрального визуально-текстового понимания через визуальное восприятие. Для построения JMMMU-Pro мы предлагаем Vibe Benchmark Construction — методологию, в которой модель генерации изображений (например, Nano Banana Pro) создает кандидаты визуальных вопросов, а люди проверяют результаты и при необходимости перегенерируют их с корректировками промптов для обеспечения качества. Благодаря использованию высокореалистичных возможностей генерации изображений Nano Banana Pro и ее способности встраивать четкий японский текст, мы создаем качественный бенчмарк с низкими затратами, охватывающий широкий спектр фонов и дизайнов макетов. Результаты экспериментов показывают, что все открытые LMM значительно затрудняются с JMMMU-Pro, что подчеркивает его важность как бенчмарка для направления будущих усилий в сообществе open-source. Мы считаем, что JMMMU-Pro предоставляет более строгий инструмент оценки японских возможностей LMM, а наша Vibe Benchmark Construction также предлагает эффективное руководство для будущей разработки визуальных бенчмарков типа VQA.
English
This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.