ChatPaper.aiChatPaper

V-REX : Évaluation du raisonnement visuel exploratoire via une chaîne de questions

V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions

December 12, 2025
papers.authors: Chenrui Fan, Yijun Liang, Shweta Bhardwaj, Kwesi Cobbina, Ming Li, Tianyi Zhou
cs.AI

papers.abstract

Alors que de nombreux modèles vision-langage (VLM) sont conçus pour répondre à des questions bien définies et directes avec des cibles hautement spécifiées, comme dans la plupart des benchmarks, ils peinent souvent en pratique face à des tâches complexes et ouvertes, qui nécessitent généralement plusieurs étapes d'exploration et de raisonnement dans l'espace visuel. Ces chemins de pensée visuelle offrent non seulement une exploration et une vérification pas à pas, à la manière d'un détective IA, mais produisent également de meilleures interprétations des réponses finales. Cependant, ces chemins sont difficiles à évaluer en raison du vaste espace d'exploration des étapes intermédiaires. Pour combler cette lacune, nous développons une suite d'évaluation, « Visual Reasoning with multi-step EXploration (V-REX) », qui se compose d'un benchmark de tâches de raisonnement visuel difficiles nécessitant une exploration native en plusieurs étapes et d'un protocole d'évaluation. V-REX couvre de riches scénarios d'application dans divers domaines. V-REX transforme le raisonnement exploratoire multi-étapes en une Chaîne de Questions (CoQ) et distingue la capacité des VLM à (1) Planifier : décomposer une tâche ouverte en sélectionnant une chaîne de questions exploratoires ; et (2) Suivre : répondre séquentiellement à une CoQ préparée pour collecter des informations afin de déduire la réponse finale. En préparant un nombre fini d'options de questions et de réponses par étape, V-REX permet une analyse quantitative fiable et granulaire des étapes intermédiaires. En évaluant les VLM propriétaires et open-source à la pointe, nous révélons des tendances d'évolutivité cohérentes, des différences significatives entre les capacités de planification et de suivi, et une marge d'amélioration substantielle dans le raisonnement exploratoire multi-étapes.
English
While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.
PDF93December 17, 2025