ChatPaper.aiChatPaper

RBench-V: Una Evaluación Primaria para Modelos de Razonamiento Visual con Salidas Multimodales

RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

May 22, 2025
Autores: Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu
cs.AI

Resumen

El rápido avance de los modelos nativos multimodales y omni-modelos, ejemplificado por GPT-4o, Gemini y o3, con su capacidad para procesar y generar contenido a través de modalidades como texto e imágenes, marca un hito significativo en la evolución de la inteligencia. La evaluación sistemática de sus capacidades de salida multimodal en procesos de pensamiento visual (también conocidos como cadena de pensamiento multimodal, M-CoT) se vuelve de crítica importancia. Sin embargo, los puntos de referencia existentes para evaluar modelos multimodales se centran principalmente en la evaluación de entradas multimodales y el razonamiento basado únicamente en texto, descuidando la importancia del razonamiento a través de salidas multimodales. En este artículo, presentamos un punto de referencia, denominado RBench-V, diseñado para evaluar las habilidades de razonamiento indispensables para la visión de los modelos. Para construir RBench-V, seleccionamos cuidadosamente 803 preguntas que cubren matemáticas, física, conteo y juegos. A diferencia de los puntos de referencia anteriores que suelen especificar ciertas modalidades de entrada, RBench-V presenta problemas centrados en salidas multimodales, que requieren manipulación de imágenes, como la generación de imágenes novedosas y la construcción de líneas auxiliares para apoyar el proceso de razonamiento. Evaluamos numerosos modelos de código abierto y cerrado en RBench-V, incluyendo o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Incluso el modelo con mejor rendimiento, o3, alcanza solo un 25.8% de precisión en RBench-V, muy por debajo de la puntuación humana del 82.3%, lo que destaca que los modelos actuales tienen dificultades para aprovechar el razonamiento multimodal. Los datos y el código están disponibles en https://evalmodels.github.io/rbenchv.
English
The rapid advancement of native multi-modal models and omni-models, exemplified by GPT-4o, Gemini, and o3, with their capability to process and generate content across modalities such as text and images, marks a significant milestone in the evolution of intelligence. Systematic evaluation of their multi-modal output capabilities in visual thinking processes (also known as multi-modal chain of thought, M-CoT) becomes critically important. However, existing benchmarks for evaluating multi-modal models primarily focus on assessing multi-modal inputs and text-only reasoning while neglecting the importance of reasoning through multi-modal outputs. In this paper, we present a benchmark, dubbed RBench-V, designed to assess models' vision-indispensable reasoning abilities. To construct RBench-V, we carefully hand-pick 803 questions covering math, physics, counting, and games. Unlike previous benchmarks that typically specify certain input modalities, RBench-V presents problems centered on multi-modal outputs, which require image manipulation such as generating novel images and constructing auxiliary lines to support the reasoning process. We evaluate numerous open- and closed-source models on RBench-V, including o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Even the best-performing model, o3, achieves only 25.8% accuracy on RBench-V, far below the human score of 82.3%, highlighting that current models struggle to leverage multi-modal reasoning. Data and code are available at https://evalmodels.github.io/rbenchv

Summary

AI-Generated Summary

PDF103May 26, 2025