PhysVLM-AVR: Активное визуальное логическое мышление для мультимодальных больших языковых моделей в физических средах
PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
October 24, 2025
Авторы: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI
Аннотация
Визуальное рассуждение в мультимодальных больших языковых моделях (MLLM) в основном изучалось в статических, полностью наблюдаемых условиях, что ограничивает их эффективность в реальных условиях, где информация часто неполна из-за окклюзии или ограниченного поля зрения. В отличие от этого, люди активно исследуют и взаимодействуют с окружающей средой — перемещаются, осматривают и манипулируют объектами — чтобы собирать информацию через замкнутый процесс, интегрирующий восприятие, рассуждение и действие. Вдохновленные этой человеческой способностью, мы представляем задачу активного визуального рассуждения (Active Visual Reasoning, AVR), расширяющую визуальное рассуждение до частично наблюдаемых интерактивных сред. AVR требует от агентов: (1) активно получать информацию посредством последовательных физических действий, (2) интегрировать наблюдения за несколько шагов для согласованного рассуждения и (3) динамически корректировать решения на основе развивающейся визуальной обратной связи. Для строгой оценки AVR мы представляем CLEVR-AVR, симуляционный бенчмарк с многораундовыми интерактивными средами, предназначенный для оценки как корректности рассуждений, так и эффективности сбора информации. Мы представляем AVR-152k, крупномасштабный набор данных, который предлагает богатые аннотации цепочки мыслей (Chain-of-Thought, CoT), детализирующие итеративное рассуждение для идентификации неопределенности, прогнозирования прироста информации в зависимости от действия и выбора действий, максимизирующих информацию, что критически важно для обучения агентов в марковском процессе принятия решений высшего порядка. На основе этого мы разрабатываем PhysVLM-AVR, MLLM, достигающую наилучших результатов на CLEVR-AVR, в телесном рассуждении (OpenEQA, RoboVQA) и пассивном визуальном рассуждении (GeoMath, Geometry30K). Наш анализ также показывает, что современные телесные MLLM, несмотря на способность обнаруживать неполноту информации, испытывают трудности с активным получением и интеграцией новой информации посредством взаимодействия, что указывает на фундаментальный разрыв в возможностях активного рассуждения.
English
Visual reasoning in multimodal large language models (MLLMs) has primarily
been studied in static, fully observable settings, limiting their effectiveness
in real-world environments where information is often incomplete due to
occlusion or limited field of view. Humans, in contrast, actively explore and
interact with their environment-moving, examining, and manipulating objects-to
gather information through a closed-loop process integrating perception,
reasoning, and action. Inspired by this human capability, we introduce the
Active Visual Reasoning (AVR) task, extending visual reasoning to partially
observable, interactive environments. AVR necessitates agents to: (1) actively
acquire information via sequential physical actions, (2) integrate observations
across multiple steps for coherent reasoning, and (3) dynamically adjust
decisions based on evolving visual feedback. To rigorously evaluate AVR, we
introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive
environments designed to assess both reasoning correctness and
information-gathering efficiency. We present AVR-152k, a large-scale dataset
that offers rich Chain-of-Thought (CoT) annotations detailing iterative
reasoning for uncertainty identification, action-conditioned information gain
prediction, and information-maximizing action selection, crucial for training
agents in a higher-order Markov Decision Process. Building on this, we develop
PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR,
embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath,
Geometry30K). Our analysis also reveals that current embodied MLLMs, despite
detecting information incompleteness, struggle to actively acquire and
integrate new information through interaction, highlighting a fundamental gap
in active reasoning capabilities.