PhysVLM-AVR: 물리 환경에서 멀티모달 대규모 언어 모델을 위한 능동 시각 추론
PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
October 24, 2025
저자: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI
초록
다중 모달 대규모 언어 모델(MLLM)의 시각적 추론 능력은 주로 정적이고 완전히 관찰 가능한 환경에서 연구되어 왔으며, 이는 폐색이나 제한된 시야로 인해 정보가 종종 불완전한 실제 환경에서의 효과성을 제한해왔습니다. 이에 반해 인간은 환경을 능동적으로 탐색하고 상호작용하며(움직이고, 관찰하고, 객체를 조작하는 방식) 지각, 추론, 행동을 통합한 폐쇄형 루프 과정을 통해 정보를 수집합니다. 이러한 인간의 능력에서 영감을 받아, 우리는 시각적 추론을 부분적으로 관찰 가능한 상호작용 환경으로 확장하는 능동 시각 추론(AVR) 과제를 소개합니다. AVR은 에이전트가 다음을 수행할 것을 요구합니다: (1) 순차적 물리적 행동을 통해 능동적으로 정보를 획득하고, (2) 다중 단계에 걸친 관측을 통합하여 일관된 추론을 수행하며, (3) 변화하는 시각적 피드백에 기반하여 동적으로 결정을 조정하는 것. AVR을 엄격하게 평가하기 위해, 우리는 추론 정확성과 정보 수집 효율성을 모두 평가하도록 설계된 다중 라운드 상호작용 환경을 갖춘 시뮬레이션 벤치마크인 CLEVR-AVR을 제안합니다. 우리는 불확실성 식별, 행동-조건 정보 이득 예측, 정보 극대화 행동 선택을 위한 반복적 추론을 상세히 설명하는 풍부한 사고 연쇄(CoT) 주석을 제공하는 대규모 데이터셋 AVR-152k를 제시하며, 이는 고차 마르코프 결정 과정에서 에이전트를 훈련시키는 데 중요합니다. 이를 바탕으로 우리는 CLEVR-AVR, 구현화 추론(OpenEQA, RoboVQA), 수동 시각 추론(GeoMath, Geometry30K)에서 최첨단 성능을 달성하는 MLLM인 PhysVLM-AVR을 개발합니다. 우리의 분석은 또한 현재의 구현화된 MLLM들이 정보 불완전성을 감지함에도 불구하고, 상호작용을 통해 새로운 정보를 능동적으로 획득하고 통합하는 데 어려움을 겪는다는 점을 보여주며, 이는 능동적 추론 능력에 있어 근본적인 격차가 있음을 강조합니다.
English
Visual reasoning in multimodal large language models (MLLMs) has primarily
been studied in static, fully observable settings, limiting their effectiveness
in real-world environments where information is often incomplete due to
occlusion or limited field of view. Humans, in contrast, actively explore and
interact with their environment-moving, examining, and manipulating objects-to
gather information through a closed-loop process integrating perception,
reasoning, and action. Inspired by this human capability, we introduce the
Active Visual Reasoning (AVR) task, extending visual reasoning to partially
observable, interactive environments. AVR necessitates agents to: (1) actively
acquire information via sequential physical actions, (2) integrate observations
across multiple steps for coherent reasoning, and (3) dynamically adjust
decisions based on evolving visual feedback. To rigorously evaluate AVR, we
introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive
environments designed to assess both reasoning correctness and
information-gathering efficiency. We present AVR-152k, a large-scale dataset
that offers rich Chain-of-Thought (CoT) annotations detailing iterative
reasoning for uncertainty identification, action-conditioned information gain
prediction, and information-maximizing action selection, crucial for training
agents in a higher-order Markov Decision Process. Building on this, we develop
PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR,
embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath,
Geometry30K). Our analysis also reveals that current embodied MLLMs, despite
detecting information incompleteness, struggle to actively acquire and
integrate new information through interaction, highlighting a fundamental gap
in active reasoning capabilities.