V-REX: Benchmarking del Ragionamento Visivo Esplorativo tramite Catena di Domande
V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions
December 12, 2025
Autori: Chenrui Fan, Yijun Liang, Shweta Bhardwaj, Kwesi Cobbina, Ming Li, Tianyi Zhou
cs.AI
Abstract
Mentre molti modelli visione-linguaggio (VLM) sono sviluppati per rispondere a domande ben definite e dirette con obiettivi altamente specificati, come nella maggior parte dei benchmark, spesso incontrano difficoltà nella pratica con compiti complessi e aperti, che solitamente richiedono molteplici fasi di esplorazione e ragionamento nello spazio visivo. Tali percorsi di pensiero visivo non solo forniscono un'esplorazione e una verifica passo-passo, similmente a un detective IA, ma producono anche interpretazioni migliori delle risposte finali. Tuttavia, questi percorsi sono impegnativi da valutare a causa del vasto spazio di esplorazione dei passaggi intermedi. Per colmare questa lacuna, abbiamo sviluppato una suite di valutazione, ``Visual Reasoning with multi-step EXploration (V-REX)'', che è composta da un benchmark di compiti complessi di ragionamento visivo che richiedono un'esplorazione intrinsecamente multi-step e da un protocollo di valutazione. V-REX copre ricchi scenari applicativi in diversi domini. V-REX incanala il ragionamento esplorativo multi-step in una Catena di Domande (Chain-of-Questions, CoQ) e distingue la capacità dei VLM di: (1) Pianificazione: scomporre un compito aperto selezionando una catena di domande esplorative; e (2) Esecuzione: rispondere a una CoQ predisposta in sequenza per raccogliere informazioni utili a derivare la risposta finale. Curando opzioni finite di domande e risposte per ogni passo, V-REX ottiene un'analisi quantitativa affidabile e granulare dei passaggi intermedi. Valutando VLM proprietari e open-source allo stato dell'arte, riveliamo trend di scaling consistenti, differenze significative tra le abilità di pianificazione e esecuzione, e un margine di miglioramento sostanziale nel ragionamento esplorativo multi-step.
English
While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.