V-REX: Evaluación del Razonamiento Visual Exploratorio mediante Cadenas de Preguntas
V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions
December 12, 2025
Autores: Chenrui Fan, Yijun Liang, Shweta Bhardwaj, Kwesi Cobbina, Ming Li, Tianyi Zhou
cs.AI
Resumen
Si bien muchos modelos de visión y lenguaje (VLM) se desarrollan para responder preguntas bien definidas y directas con objetivos altamente especificados, como ocurre en la mayoría de los puntos de referencia, en la práctica a menudo tienen dificultades con tareas complejas de carácter abierto, que generalmente requieren múltiples rondas de exploración y razonamiento en el espacio visual. Estas trayectorias de pensamiento visual no solo proporcionan una exploración y verificación paso a paso como un detective de IA, sino que también producen mejores interpretaciones de las respuestas finales. Sin embargo, estas trayectorias son difíciles de evaluar debido al amplio espacio de exploración de los pasos intermedios. Para cerrar esta brecha, desarrollamos un conjunto de evaluación, "Razonamiento Visual con Exploración Multi-etapa (V-REX)", que está compuesto por un benchmark de tareas desafiantes de razonamiento visual que requieren una exploración multi-etapa inherente y un protocolo de evaluación. V-REX cubre escenarios de aplicación ricos en diversos dominios. V-REX transforma el razonamiento exploratorio multi-etapa en una Cadena de Preguntas (CoQ, por sus siglas en inglés) y desglosa la capacidad de los VLM para: (1) Planificación: descomponer una tarea de carácter abierto seleccionando una cadena de preguntas exploratorias; y (2) Seguimiento: responder una CoQ cuidadosamente elaborada de forma secuencial para recopilar información y derivar la respuesta final. Al elaborar opciones finitas de preguntas y respuestas por paso, V-REX logra un análisis cuantitativo confiable y granular de los pasos intermedios. Al evaluar VLM propietarios y de código abierto de última generación, revelamos tendencias consistentes de escalabilidad, diferencias significativas entre las habilidades de planificación y seguimiento, y un margen sustancial de mejora en el razonamiento exploratorio multi-etapa.
English
While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.