PhysVLM-AVR: 物理環境におけるマルチモーダル大規模言語モデルのための能動的視覚推論
PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
October 24, 2025
著者: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)における視覚的推論は、これまで主に静的な完全観測環境下で研究されてきた。このような設定は、現実世界で遮蔽や視野角の制限により情報が不完全となる環境での有効性を制限している。一方、人間は知覚・推論・行動を統合した閉ループプロセスを通じて、環境を能動的に探索し、移動・観察・物体操作を行うことで情報を収集する。こうした人間の能力に着想を得て、我々は部分観測可能な対話型環境へ視覚推論を拡張する能動的視覚推論(AVR)タスクを提案する。AVRはエージェントに以下を要求する:(1)順次的な物理行動による能動的情報獲得、(2)複数ステップにわたる観測の統合に基づく一貫性のある推論、(3)変化する視覚的フィードバックに応じた動的な意思決定。AVRを厳密に評価するため、推論の正確さと情報収集効率の両方を測定可能なマルチラウンド対話環境を備えたシミュレーションベンチマークCLEVR-AVRを開発した。さらに、不確実性の特定、行動条件付き情報利得の予測、情報最大化行動の選択という反復的推論プロセスを詳細に記述した大規模データセットAVR-152kを構築した。これは高次マルコフ決定過程におけるエージェント訓練に不可欠な、豊富な連鎖思考(CoT)注釈を提供する。これに基づき、CLEVR-AVR、具身化推論(OpenEQA、RoboVQA)、受動的視覚推論(GeoMath、Geometry30K)において最先端の性能を達成するMLLM、PhysVLM-AVRを開発した。分析により、現行の具身化MLLMは情報の不完全性を検知できるものの、対話を通じた新規情報の能動的獲得・統合に課題を抱えることが明らかとなり、能動的推論能力における本質的隔たりが浮き彫りとなった。
English
Visual reasoning in multimodal large language models (MLLMs) has primarily
been studied in static, fully observable settings, limiting their effectiveness
in real-world environments where information is often incomplete due to
occlusion or limited field of view. Humans, in contrast, actively explore and
interact with their environment-moving, examining, and manipulating objects-to
gather information through a closed-loop process integrating perception,
reasoning, and action. Inspired by this human capability, we introduce the
Active Visual Reasoning (AVR) task, extending visual reasoning to partially
observable, interactive environments. AVR necessitates agents to: (1) actively
acquire information via sequential physical actions, (2) integrate observations
across multiple steps for coherent reasoning, and (3) dynamically adjust
decisions based on evolving visual feedback. To rigorously evaluate AVR, we
introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive
environments designed to assess both reasoning correctness and
information-gathering efficiency. We present AVR-152k, a large-scale dataset
that offers rich Chain-of-Thought (CoT) annotations detailing iterative
reasoning for uncertainty identification, action-conditioned information gain
prediction, and information-maximizing action selection, crucial for training
agents in a higher-order Markov Decision Process. Building on this, we develop
PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR,
embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath,
Geometry30K). Our analysis also reveals that current embodied MLLMs, despite
detecting information incompleteness, struggle to actively acquire and
integrate new information through interaction, highlighting a fundamental gap
in active reasoning capabilities.