PhysVLM-AVR: Raciocínio Visual Ativo para Modelos de Linguagem de Grande Porte Multimodais em Ambientes Físicos
PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
October 24, 2025
Autores: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI
Resumo
O raciocínio visual em modelos de linguagem grandes multimodais (MLLMs) tem sido estudado principalmente em contextos estáticos e totalmente observáveis, limitando sua eficácia em ambientes do mundo real, onde a informação é frequentemente incompleta devido a oclusões ou campo de visão limitado. Os seres humanos, em contraste, exploram e interagem ativamente com o seu ambiente - movendo-se, examinando e manipulando objetos - para recolher informações através de um processo de ciclo fechado que integra perceção, raciocínio e ação. Inspirados por esta capacidade humana, introduzimos a tarefa de Raciocínio Visual Ativo (AVR), que estende o raciocínio visual a ambientes interativos e parcialmente observáveis. A AVR exige que os agentes: (1) adquiram informações ativamente através de ações físicas sequenciais, (2) integrem observações de múltiplos passos para um raciocínio coerente, e (3) ajustem dinamicamente as decisões com base no *feedback* visual em evolução. Para avaliar rigorosamente a AVR, introduzimos o CLEVR-AVR, um *benchmark* de simulação que apresenta ambientes interativos multi-etapa concebidos para avaliar tanto a correção do raciocínio como a eficiência na recolha de informação. Apresentamos o AVR-152k, um conjunto de dados em larga escala que oferece anotações ricas de *Chain-of-Thought* (CoT) detalhando o raciocínio iterativo para identificação de incerteza, previsão de ganho de informação condicionada à ação e seleção de ações que maximizam a informação, cruciais para treinar agentes num Processo de Decisão de Markov de ordem superior. Com base nisto, desenvolvemos o PhysVLM-AVR, um MLLM que atinge um desempenho de última geração no CLEVR-AVR, no raciocínio incorporado (OpenEQA, RoboVQA) e no raciocínio visual passivo (GeoMath, Geometry30K). A nossa análise revela também que os MLLMs incorporados atuais, apesar de detetarem a incompletude da informação, lutam para adquirir e integrar ativamente nova informação através da interação, destacando uma lacuna fundamental nas capacidades de raciocínio ativo.
English
Visual reasoning in multimodal large language models (MLLMs) has primarily
been studied in static, fully observable settings, limiting their effectiveness
in real-world environments where information is often incomplete due to
occlusion or limited field of view. Humans, in contrast, actively explore and
interact with their environment-moving, examining, and manipulating objects-to
gather information through a closed-loop process integrating perception,
reasoning, and action. Inspired by this human capability, we introduce the
Active Visual Reasoning (AVR) task, extending visual reasoning to partially
observable, interactive environments. AVR necessitates agents to: (1) actively
acquire information via sequential physical actions, (2) integrate observations
across multiple steps for coherent reasoning, and (3) dynamically adjust
decisions based on evolving visual feedback. To rigorously evaluate AVR, we
introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive
environments designed to assess both reasoning correctness and
information-gathering efficiency. We present AVR-152k, a large-scale dataset
that offers rich Chain-of-Thought (CoT) annotations detailing iterative
reasoning for uncertainty identification, action-conditioned information gain
prediction, and information-maximizing action selection, crucial for training
agents in a higher-order Markov Decision Process. Building on this, we develop
PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR,
embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath,
Geometry30K). Our analysis also reveals that current embodied MLLMs, despite
detecting information incompleteness, struggle to actively acquire and
integrate new information through interaction, highlighting a fundamental gap
in active reasoning capabilities.