V-REX: 질문 체인을 통한 탐색적 시각 추론 성능 평가
V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions
December 12, 2025
저자: Chenrui Fan, Yijun Liang, Shweta Bhardwaj, Kwesi Cobbina, Ming Li, Tianyi Zhou
cs.AI
초록
많은 시각-언어 모델(VLM)이 대부분의 벤치마크에서와 같이 명확하게 정의된 직설적인 질문에 답하도록 개발되었지만, 실제로는 시각 공간에서 다중 단계의 탐색과 추론이 필요한 복잡한 개방형 과제에는 종종 어려움을 겪습니다. 이러한 시각적 사고 경로는 AI 탐정처럼 단계별 탐색과 검증을 제공할 뿐만 아니라 최종 답변에 대한 더 나은 해석을 생성합니다. 그러나 중간 단계의 방대한 탐색 공간으로 인해 이러한 경로를 평가하는 것은 어려운 과제입니다. 이러한 격차를 해소하기 위해 우리는 본질적으로 다중 단계 탐색이 필요한 난해한 시각 추론 과제로 구성된 벤치마크와 평가 프로토콜로 이루어진 평가 도구인 ``V-REX(Visual Reasoning with multi-step EXploration)''를 개발했습니다. V-REX는 다양한 영역에 걸친 풍부한 적용 시나리오를 다룹니다. V-REX는 다중 단계 탐색적 추론을 Chain-of-Questions(CoQ)로 구성하고, VLM의 능력을 (1) 기획: 탐색적 질문 체인을 선택하여 개방형 과제를 분해하는 능력과 (2) 실행: 최종 답변을 도출하기 위해 정보를 수집하도록 정련된 CoQ에 순차적으로 답하는 능력으로 분리하여 평가합니다. V-REX는 각 단계별로 질문과 답변의 유한한 옵션을 정련함으로써 중간 단계에 대한 신뢰할 수 있는 정량적이고 세분화된 분석을 가능하게 합니다. 최첨단 독점 및 오픈소스 VLM을 평가함으로써, 우리는 일관된 확장 경향, 기획과 실행 능력 간의 상당한 차이, 그리고 다중 단계 탐색적 추론에서의 개선 필요성을 확인했습니다.
English
While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.