V-REX: Benchmarken van verkennend visueel redeneren via ketens van vragen
V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions
December 12, 2025
Auteurs: Chenrui Fan, Yijun Liang, Shweta Bhardwaj, Kwesi Cobbina, Ming Li, Tianyi Zhou
cs.AI
Samenvatting
Hoewel veel vision-language modellen (VLM's) worden ontwikkeld om goed gedefinieerde, recht-toe-recht-aan vragen met zeer specifieke doelen te beantwoorden, zoals in de meeste benchmarks, hebben ze in de praktijk vaak moeite met complexe open-eind taken. Deze vereisen meestal meerdere rondes van verkenning en redenering in de visuele ruimte. Dergelijke visuele denkpaden bieden niet alleen stapsgewijze verkenning en verificatie als een AI-detective, maar leveren ook betere interpretaties van de uiteindelijke antwoorden op. Deze paden zijn echter moeilijk te evalueren vanwege de grote verkeningsruimte van tussenstappen.
Om deze kloof te overbruggen, ontwikkelen we een evaluatiesuite, ``Visual Reasoning with multi-step EXploration (V-REX)'', die bestaat uit een benchmark van uitdagende visuele redeneertaken die inherente meerstapsverkenning vereisen, en een evaluatieprotocol. V-REX bestrijkt rijke toepassingsscenario's in diverse domeinen. V-REX vertaalt het meerstaps verkennende redeneren naar een Keten-van-Vragen (Chain-of-Questions, CoQ) en ontrafelt het vermogen van VLM's om (1) te Plannen: een open-eind taak op te delen door een keten van verkennende vragen te selecteren; en (2) te Volgen: een samengestelde CoQ sequentieel te beantwoorden om informatie te verzamelen voor het afleiden van het eindantwoord.
Door per stap een beperkte set van vragen en antwoorden te cureren, bereikt V-REX een betrouwbare kwantitatieve en fijnmazige analyse van de tussenstappen. Door state-of-the-art propriëtaire en open-source VLM's te beoordelen, tonen we consistente schaalverbanden, significante verschillen tussen plannings- en volgvaardigheden, en een aanzienlijke verbeteringsruimte voor meerstaps verkennend redeneren aan.
English
While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.