ChatPaper.aiChatPaper

RBench-V: Uma Avaliação Primária para Modelos de Raciocínio Visual com Saídas Multimodais

RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

May 22, 2025
Autores: Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu
cs.AI

Resumo

O rápido avanço dos modelos nativos multimodais e omni-modelos, exemplificados por GPT-4o, Gemini e o3, com sua capacidade de processar e gerar conteúdo em múltiplas modalidades, como texto e imagens, marca um marco significativo na evolução da inteligência. A avaliação sistemática de suas capacidades de saída multimodal em processos de pensamento visual (também conhecido como cadeia de pensamento multimodal, M-CoT) torna-se extremamente importante. No entanto, os benchmarks existentes para avaliar modelos multimodais focam principalmente na avaliação de entradas multimodais e raciocínio baseado apenas em texto, negligenciando a importância do raciocínio por meio de saídas multimodais. Neste artigo, apresentamos um benchmark, denominado RBench-V, projetado para avaliar as habilidades de raciocínio indispensáveis à visão dos modelos. Para construir o RBench-V, selecionamos cuidadosamente 803 questões que abrangem matemática, física, contagem e jogos. Diferente de benchmarks anteriores que geralmente especificam certas modalidades de entrada, o RBench-V apresenta problemas centrados em saídas multimodais, que exigem manipulação de imagens, como a geração de novas imagens e a construção de linhas auxiliares para apoiar o processo de raciocínio. Avaliamos diversos modelos de código aberto e fechado no RBench-V, incluindo o3, Gemini 2.5 Pro, Qwen2.5-VL, entre outros. Mesmo o modelo de melhor desempenho, o3, alcança apenas 25,8% de precisão no RBench-V, muito abaixo da pontuação humana de 82,3%, destacando que os modelos atuais têm dificuldade em aproveitar o raciocínio multimodal. Dados e código estão disponíveis em https://evalmodels.github.io/rbenchv.
English
The rapid advancement of native multi-modal models and omni-models, exemplified by GPT-4o, Gemini, and o3, with their capability to process and generate content across modalities such as text and images, marks a significant milestone in the evolution of intelligence. Systematic evaluation of their multi-modal output capabilities in visual thinking processes (also known as multi-modal chain of thought, M-CoT) becomes critically important. However, existing benchmarks for evaluating multi-modal models primarily focus on assessing multi-modal inputs and text-only reasoning while neglecting the importance of reasoning through multi-modal outputs. In this paper, we present a benchmark, dubbed RBench-V, designed to assess models' vision-indispensable reasoning abilities. To construct RBench-V, we carefully hand-pick 803 questions covering math, physics, counting, and games. Unlike previous benchmarks that typically specify certain input modalities, RBench-V presents problems centered on multi-modal outputs, which require image manipulation such as generating novel images and constructing auxiliary lines to support the reasoning process. We evaluate numerous open- and closed-source models on RBench-V, including o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Even the best-performing model, o3, achieves only 25.8% accuracy on RBench-V, far below the human score of 82.3%, highlighting that current models struggle to leverage multi-modal reasoning. Data and code are available at https://evalmodels.github.io/rbenchv
PDF123May 26, 2025