V-REX: Оценка исследовательского визуального мышления с помощью цепочки вопросов
V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions
December 12, 2025
Авторы: Chenrui Fan, Yijun Liang, Shweta Bhardwaj, Kwesi Cobbina, Ming Li, Tianyi Zhou
cs.AI
Аннотация
Хотя многие модели "визуальный язык" (VLM) разрабатываются для ответов на четко сформулированные, прямые вопросы с конкретными целями, как в большинстве бенчмарков, на практике они часто испытывают трудности со сложными открытыми задачами, которые обычно требуют многократного исследования и рассуждений в визуальном пространстве. Такие пути визуального мышления не только обеспечивают пошаговое исследование и проверку, подобно ИИ-детективу, но и дают лучшую интерпретацию окончательных ответов. Однако оценить эти пути сложно из-за обширного пространства промежуточных шагов. Чтобы устранить этот разрыв, мы разработали набор для оценки «Визуальные рассуждения с многошаговым исследованием (V-REX)», который состоит из бенчмарка сложных задач на визуальное рассуждение, требующих изначально многошагового исследования, и протокола оценки. V-REX охватывает широкий спектр сценариев применения в различных областях. V-REX преобразует многошаговое исследовательское рассуждение в Цепочку Вопросов (CoQ) и разделяет способности VLM на: (1) **Планирование**: декомпозиция открытой задачи путем выбора цепочки исследовательских вопросов; и (2) **Следование**: последовательное ответы на подготовленную CoQ для сбора информации и выведения окончательного ответа. Путем тщательного подбора ограниченного набора вариантов вопросов и ответов на каждом шаге, V-REX позволяет провести надежный количественный и детальный анализ промежуточных шагов. Оценивая передовые проприетарные и открытые VLM, мы выявляем устойчивые тенденции масштабирования, значительные различия между способностями к планированию и следованию, а также существенный потенциал для улучшения в области многошагового исследовательского рассуждения.
English
While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.