JMMMU-Pro: Benchmark de Compreensão Multimodal Multidisciplinar em Japonês Baseada em Imagens via Construção de Benchmark Vibe

Resumo

Este artigo apresenta o JMMMU-Pro, um benchmark japonês de compreensão multimodal baseado em imagem para múltiplas disciplinas, e o Vibe Benchmark Construction, um método de construção escalável. Seguindo a evolução do MMMU para o MMMU-Pro, o JMMMU-Pro estende o JMMMU ao compor a imagem da pergunta e o texto da pergunta em uma única imagem, criando assim um benchmark que exige compreensão visual-textual integrada por meio de percepção visual. Para construir o JMMMU-Pro, propomos o Vibe Benchmark Construction, uma metodologia na qual um modelo generativo de imagem (por exemplo, Nano Banana Pro) produz questões visuais candidatas, e humanos verificam as saídas e, quando necessário, as regeneram com instruções ajustadas para garantir a qualidade. Ao aproveitar as capacidades de geração de imagens altamente realistas do Nano Banana Pro e sua capacidade de incorporar texto japonês limpo, construímos um benchmark de alta qualidade a um baixo custo, abrangendo uma ampla gama de planos de fundo e designs de layout. Os resultados experimentais mostram que todos os LMMs de código aberto têm dificuldades significativas com o JMMMU-Pro, destacando-o como um benchmark importante para orientar os esforços futuros na comunidade de código aberto. Acreditamos que o JMMMU-Pro fornece uma ferramenta de avaliação mais rigorosa para avaliar as capacidades em japonês dos LMMs e que nosso Vibe Benchmark Construction também oferece uma diretriz eficiente para o desenvolvimento futuro de benchmarks de VQA baseados em imagem.

English

This paper introduces JMMMU-Pro, an image-based Japanese Multi-discipline Multimodal Understanding Benchmark, and Vibe Benchmark Construction, a scalable construction method. Following the evolution from MMMU to MMMU-Pro, JMMMU-Pro extends JMMMU by composing the question image and question text into a single image, thereby creating a benchmark that requires integrated visual-textual understanding through visual perception. To build JMMMU-Pro, we propose Vibe Benchmark Construction, a methodology in which an image generative model (e.g., Nano Banana Pro) produces candidate visual questions, and humans verify the outputs and, when necessary, regenerate with adjusted prompts to ensure quality. By leveraging Nano Banana Pro's highly realistic image generation capabilities and its ability to embed clean Japanese text, we construct a high-quality benchmark at low cost, covering a wide range of background and layout designs. Experimental results show that all open-source LMMs struggle substantially with JMMMU-Pro, underscoring JMMMU-Pro as an important benchmark for guiding future efforts in the open-source community. We believe that JMMMU-Pro provides a more rigorous evaluation tool for assessing the Japanese capabilities of LMMs and that our Vibe Benchmark Construction also offers an efficient guideline for future development of image-based VQA benchmarks.