ChatPaper.aiChatPaper

V-REX: 質問連鎖による探索的視覚推論のベンチマーキング

V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions

December 12, 2025
著者: Chenrui Fan, Yijun Liang, Shweta Bhardwaj, Kwesi Cobbina, Ming Li, Tianyi Zhou
cs.AI

要旨

多くの視覚言語モデル(VLM)は、ほとんどのベンチマークで見られるように、明確に定義された単純な質問や高度に特定化された対象に対して回答するよう開発されていますが、実際の応用では、複雑なオープンエンドな課題に苦戦することが多いです。こうした課題では、視覚空間における複数回の探索と推論が通常必要となります。このような視覚的思考経路は、AI探偵のように段階的な探索と検証を提供するだけでなく、最終的な答えに対するより優れた解釈を生み出します。しかし、中間ステップの探索空間が広大であるため、これらの経路を評価することは困難です。この隔たりを埋めるため、我々は評価スイート「V-REX(Visual Reasoning with multi-step EXploration)」を開発しました。V-REXは、本質的な多段階探索を必要とする挑戦的な視覚推論タスクのベンチマークと評価プロトコルで構成されています。V-REXは、多様な領域にわたる豊富な応用シナリオを網羅しています。V-REXは、多段階の探索的推論を「質問の連鎖(Chain-of-Questions: CoQ)」として定式化し、VLMの能力を以下の2つに分解して評価します:(1) 計画:オープンエンドな課題を分解し、探索的質問の連鎖を選択する能力、(2) 追従:精選されたCoQに順次回答し、最終的な答えを導き出すための情報を収集する能力。各ステップにおける質問と回答の選択肢を有限に精選することで、V-REXは中間ステップに対する信頼性の高い定量的かつ詳細な分析を実現します。SOTAのプロプライエタリ及びオープンソースのVLMを評価した結果、一貫したスケーリングの傾向、計画能力と追従能力の間の顕著な差、そして多段階探索推論における大幅な改善の余地が明らかになりました。
English
While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.
PDF93December 17, 2025