PhysVLM-AVR: Razonamiento Visual Activo para Modelos de Lenguaje Grandes Multimodales en Entornos Físicos
PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
October 24, 2025
Autores: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI
Resumen
El razonamiento visual en los modelos de lenguaje grandes multimodales (MLLMs) se ha estudiado principalmente en entornos estáticos y completamente observables, lo que limita su eficacia en entornos del mundo real donde la información a menudo es incompleta debido a oclusiones o un campo de visión limitado. Los humanos, en contraste, exploran e interactúan activamente con su entorno —moviéndose, examinando y manipulando objetos— para recopilar información a través de un proceso de bucle cerrado que integra percepción, razonamiento y acción. Inspirados por esta capacidad humana, presentamos la tarea de Razonamiento Visual Activo (AVR), que extiende el razonamiento visual a entornos interactivos y parcialmente observables. AVR requiere que los agentes: (1) adquieran información activamente mediante acciones físicas secuenciales, (2) integren observaciones a lo largo de múltiples pasos para un razonamiento coherente, y (3) ajusten dinámicamente las decisiones basándose en la retroalimentación visual en evolución. Para evaluar rigurosamente AVR, presentamos CLEVR-AVR, un benchmark de simulación que presenta entornos interactivos de múltiples rondas diseñados para evaluar tanto la corrección del razonamiento como la eficiencia en la recolección de información. Presentamos AVR-152k, un conjunto de datos a gran escala que ofrece anotaciones ricas de Cadena de Pensamiento (CoT) que detallan el razonamiento iterativo para la identificación de incertidumbre, la predicción de ganancia de información condicionada a la acción y la selección de acciones que maximizan la información, cruciales para entrenar agentes en un Proceso de Decisión de Markov de orden superior. Sobre esta base, desarrollamos PhysVLM-AVR, un MLLM que logra un rendimiento de vanguardia en CLEVR-AVR, razonamiento encarnado (OpenEQA, RoboVQA) y razonamiento visual pasivo (GeoMath, Geometry30K). Nuestro análisis también revela que los MLLMs encarnados actuales, a pesar de detectar la incompletitud de la información, tienen dificultades para adquirir e integrar activamente nueva información a través de la interacción, lo que subraya una brecha fundamental en las capacidades de razonamiento activo.
English
Visual reasoning in multimodal large language models (MLLMs) has primarily
been studied in static, fully observable settings, limiting their effectiveness
in real-world environments where information is often incomplete due to
occlusion or limited field of view. Humans, in contrast, actively explore and
interact with their environment-moving, examining, and manipulating objects-to
gather information through a closed-loop process integrating perception,
reasoning, and action. Inspired by this human capability, we introduce the
Active Visual Reasoning (AVR) task, extending visual reasoning to partially
observable, interactive environments. AVR necessitates agents to: (1) actively
acquire information via sequential physical actions, (2) integrate observations
across multiple steps for coherent reasoning, and (3) dynamically adjust
decisions based on evolving visual feedback. To rigorously evaluate AVR, we
introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive
environments designed to assess both reasoning correctness and
information-gathering efficiency. We present AVR-152k, a large-scale dataset
that offers rich Chain-of-Thought (CoT) annotations detailing iterative
reasoning for uncertainty identification, action-conditioned information gain
prediction, and information-maximizing action selection, crucial for training
agents in a higher-order Markov Decision Process. Building on this, we develop
PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR,
embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath,
Geometry30K). Our analysis also reveals that current embodied MLLMs, despite
detecting information incompleteness, struggle to actively acquire and
integrate new information through interaction, highlighting a fundamental gap
in active reasoning capabilities.