V-REX: Avaliação do Raciocínio Visual Exploratório por meio de Cadeia de Perguntas

Resumo

Embora muitos modelos visão-linguagem (VLMs) sejam desenvolvidos para responder a perguntas bem definidas e objetivas, com alvos altamente específicos, como na maioria dos benchmarks, eles frequentemente têm dificuldades na prática com tarefas complexas e de resposta aberta, que geralmente exigem múltiplas rodadas de exploração e raciocínio no espaço visual. Esses caminhos de pensamento visual não apenas fornecem uma exploração e verificação passo a passo, como um detetive de IA, mas também produzem interpretações melhores das respostas finais. No entanto, esses caminhos são difíceis de avaliar devido ao grande espaço de exploração das etapas intermediárias. Para preencher essa lacuna, desenvolvemos um conjunto de avaliação, "Raciocínio Visual com Exploração Multi-etapa (V-REX)", que é composto por um benchmark de tarefas desafiadoras de raciocínio visual que exigem exploração multi-etapa nativa e um protocolo de avaliação. O V-REX abrange cenários de aplicação ricos em diversos domínios. O V-REX transforma o raciocínio exploratório multi-etapa em uma Cadeia de Perguntas (Chain-of-Questions, CoQ) e desagrega a capacidade dos VLMs em (1) Planejamento: decompor uma tarefa de resposta aberta selecionando uma cadeia de perguntas exploratórias; e (2) Seguimento: responder a uma CoQ curada sequencialmente para coletar informações para derivar a resposta final. Ao selecionar opções finitas de perguntas e respostas por etapa, o V-REX alcança uma análise quantitativa confiável e granular das etapas intermediárias. Ao avaliar VLMs proprietários e de código aberto estado da arte, revelamos tendências consistentes de escalabilidade, diferenças significativas entre as habilidades de planejamento e seguimento, e uma margem substancial de melhoria no raciocínio exploratório multi-etapa.

English

While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.

V-REX: Avaliação do Raciocínio Visual Exploratório por meio de Cadeia de Perguntas

V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions

Resumo

Support