JMMMU-Pro: Vibe 벤치마크 구성을 통한 이미지 기반 일본어 다학제 멀티모달 이해 벤치마크
JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction
December 16, 2025
저자: Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa
cs.AI
초록
본 논문에서는 이미지 기반 일본어 다학제 멀티모달 이해 벤치마크인 JMMMU-Pro와 확장 가능한 구축 방법론인 Vibe Benchmark Construction을 소개한다. MMMU에서 MMMU-Pro로의 진화를 따라, JMMMU-Pro는 JMMMU를 확장하여 질문 이미지와 질문 텍스트를 단일 이미지로 구성함으로써 시각적 인식을 통한 통합적인 시각-텍스트 이해를 요구하는 벤치마크를 생성한다. JMMMU-Pro를 구축하기 위해 우리는 이미지 생성 모델(예: Nano Banana Pro)이 후보 시각 질문을 생성하고, 인간이 출력을 검증하며 필요시 수정된 프롬프트로 재생성하여 품질을 보장하는 방법론인 Vibe Benchmark Construction을 제안한다. Nano Banana Pro의 높은 현실감 있는 이미지 생성 능력과 깔끔한 일본어 텍스트 임베딩 능력을 활용하여, 다양한 배경과 레이아웃 디자인을 포괄하는 고품질 벤치마크를 저비용으로 구축한다. 실험 결과, 모든 오픈소스 LMM이 JMMMU-Pro에 상당히 어려움을 겪는 것으로 나타나, JMMMU-Pro가 오픈소스 커뮤니티의 미래 노력을 안내하는 중요한 벤치마크임을 강조한다. 우리는 JMMMU-Pro가 LMM의 일본어 능력을 평가하는 더 엄격한 평가 도구를 제공하며, 우리의 Vibe Benchmark Construction이 향후 이미지 기반 VQA 벤치마크 개발을 위한 효율적인 지침을 제공할 것이라고 믿는다.
English
This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.