V-REX: Benchmarking explorativer visueller Reasoning-Fähigkeiten mittels Frageketten
V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions
December 12, 2025
papers.authors: Chenrui Fan, Yijun Liang, Shweta Bhardwaj, Kwesi Cobbina, Ming Li, Tianyi Zhou
cs.AI
papers.abstract
Während viele Vision-Language-Modelle (VLMs) darauf ausgelegt sind, klar definierte, einfache Fragen mit spezifischen Zielen zu beantworten, wie in den meisten Benchmarks, scheitern sie in der Praxis häufig an komplexen, offenen Aufgaben, die üblicherweise mehrstufige Exploration und Reasoning im visuellen Raum erfordern. Solche visuellen Denkpfade bieten nicht nur eine schrittweise Erkundung und Verifikation ähnlich einem KI-Detektiv, sondern liefern auch bessere Interpretationen der finalen Antworten. Diese Pfade sind jedoch aufgrund des großen Suchraums der Zwischenschritte schwer zu evaluieren. Um diese Lücke zu schließen, entwickeln wir eine Evaluierungssuite, „Visual Reasoning with multi-step EXploration (V-REX)“, die aus einem Benchmark anspruchsvoller visueller Reasoning-Aufgaben mit inhärenter Mehrschritt-Exploration und einem Evaluierungsprotokoll besteht. V-REX deckt vielfältige Anwendungsszenarien across verschiedenen Domänen ab. V-REX fasst das mehrstufige explorative Reasoning als eine Chain-of-Questions (CoQ) auf und unterteilt die Fähigkeiten von VLMs in (1) Planung: Zerlegung einer offenen Aufgabe durch Auswahl einer Kette explorativer Fragen; und (2) Befolgung: sequentielle Beantwortung kuratierter CoQ zur Informationssammlung für die finale Antwort. Durch die Bereitstellung endlicher Frage- und Antwortoptionen pro Schritt ermöglicht V-REX eine zuverlässige quantitative und feingranulare Analyse der Zwischenschritte. Durch die Evaluierung state-of-the-art proprietärer und quelloffener VLMs zeigen wir konsistente Skalierungstrends, signifikante Unterschiede zwischen Planungs- und Befolgungskompetenzen sowie erheblichen Verbesserungsbedarf im mehrstufigen explorativen Reasoning auf.
English
While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.