PhysVLM-AVR: Actieve Visuele Redenering voor Multimodale Grote Taalmodellen in Fysieke Omgevingen
PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
October 24, 2025
Auteurs: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI
Samenvatting
Visueel redeneren in multimodale grote taalmodellen (MLLM's) is voornamelijk bestudeerd in statische, volledig waarneembare settings, wat hun effectiviteit beperkt in realistische omgevingen waar informatie vaak incompleet is door occlusie of een beperkt gezichtsveld. Mensen daarentegen verkennen en interacteren actief met hun omgeving – ze bewegen, onderzoeken en manipuleren objecten – om informatie te verzamelen via een gesloten-lusproces dat perceptie, redeneren en actie integreert. Geïnspireerd door dit menselijk vermogen introduceren we de taak van Actief Visueel Redeneren (AVR), die visueel redeneren uitbreidt naar gedeeltelijk waarneembare, interactieve omgevingen. AVR vereist dat agenten: (1) actief informatie verwerven via sequentiële fysieke acties, (2) observaties over meerdere stappen integreren voor coherent redeneren, en (3) dynamisch beslissingen aanpassen op basis van evoluerende visuele feedback. Om AVR rigoureus te evalueren, introduceren we CLEVR-AVR, een simulatiebenchmark met multi-ronde interactieve omgevingen ontworpen om zowel de redeneercorrectheid als de efficiëntie van informatievergaring te beoordelen. We presenteren AVR-152k, een grootschalige dataset die rijke Chain-of-Thought (CoT)-annotaties biedt die iteratief redeneren detailleren voor onzekerheidsidentificatie, actie-geconditioneerde voorspelling van informatiewinst, en informatie-maximaliserende actieselectie, cruciaal voor het trainen van agenten in een hogere-orde Markov Beslissingsproces. Hierop voortbouwend ontwikkelen we PhysVLM-AVR, een MLLM die state-of-the-art prestaties bereikt op CLEVR-AVR, belichaamd redeneren (OpenEQA, RoboVQA) en passief visueel redeneren (GeoMath, Geometry30K). Onze analyse toont ook aan dat huidige belichaamde MLLM's, ondanks het detecteren van informatie-onvolledigheid, moeite hebben om actief nieuwe informatie te verwerven en te integreren via interactie, wat een fundamentele kloof in actieve redeneervaardigheden blootlegt.
English
Visual reasoning in multimodal large language models (MLLMs) has primarily
been studied in static, fully observable settings, limiting their effectiveness
in real-world environments where information is often incomplete due to
occlusion or limited field of view. Humans, in contrast, actively explore and
interact with their environment-moving, examining, and manipulating objects-to
gather information through a closed-loop process integrating perception,
reasoning, and action. Inspired by this human capability, we introduce the
Active Visual Reasoning (AVR) task, extending visual reasoning to partially
observable, interactive environments. AVR necessitates agents to: (1) actively
acquire information via sequential physical actions, (2) integrate observations
across multiple steps for coherent reasoning, and (3) dynamically adjust
decisions based on evolving visual feedback. To rigorously evaluate AVR, we
introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive
environments designed to assess both reasoning correctness and
information-gathering efficiency. We present AVR-152k, a large-scale dataset
that offers rich Chain-of-Thought (CoT) annotations detailing iterative
reasoning for uncertainty identification, action-conditioned information gain
prediction, and information-maximizing action selection, crucial for training
agents in a higher-order Markov Decision Process. Building on this, we develop
PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR,
embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath,
Geometry30K). Our analysis also reveals that current embodied MLLMs, despite
detecting information incompleteness, struggle to actively acquire and
integrate new information through interaction, highlighting a fundamental gap
in active reasoning capabilities.