ChatPaper.aiChatPaper

PhysVLM-AVR: Actieve Visuele Redenering voor Multimodale Grote Taalmodellen in Fysieke Omgevingen

PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments

October 24, 2025
Auteurs: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI

Samenvatting

Visueel redeneren in multimodale grote taalmodellen (MLLM's) is voornamelijk bestudeerd in statische, volledig waarneembare settings, wat hun effectiviteit beperkt in realistische omgevingen waar informatie vaak incompleet is door occlusie of een beperkt gezichtsveld. Mensen daarentegen verkennen en interacteren actief met hun omgeving – ze bewegen, onderzoeken en manipuleren objecten – om informatie te verzamelen via een gesloten-lusproces dat perceptie, redeneren en actie integreert. Geïnspireerd door dit menselijk vermogen introduceren we de taak van Actief Visueel Redeneren (AVR), die visueel redeneren uitbreidt naar gedeeltelijk waarneembare, interactieve omgevingen. AVR vereist dat agenten: (1) actief informatie verwerven via sequentiële fysieke acties, (2) observaties over meerdere stappen integreren voor coherent redeneren, en (3) dynamisch beslissingen aanpassen op basis van evoluerende visuele feedback. Om AVR rigoureus te evalueren, introduceren we CLEVR-AVR, een simulatiebenchmark met multi-ronde interactieve omgevingen ontworpen om zowel de redeneercorrectheid als de efficiëntie van informatievergaring te beoordelen. We presenteren AVR-152k, een grootschalige dataset die rijke Chain-of-Thought (CoT)-annotaties biedt die iteratief redeneren detailleren voor onzekerheidsidentificatie, actie-geconditioneerde voorspelling van informatiewinst, en informatie-maximaliserende actieselectie, cruciaal voor het trainen van agenten in een hogere-orde Markov Beslissingsproces. Hierop voortbouwend ontwikkelen we PhysVLM-AVR, een MLLM die state-of-the-art prestaties bereikt op CLEVR-AVR, belichaamd redeneren (OpenEQA, RoboVQA) en passief visueel redeneren (GeoMath, Geometry30K). Onze analyse toont ook aan dat huidige belichaamde MLLM's, ondanks het detecteren van informatie-onvolledigheid, moeite hebben om actief nieuwe informatie te verwerven en te integreren via interactie, wat een fundamentele kloof in actieve redeneervaardigheden blootlegt.
English
Visual reasoning in multimodal large language models (MLLMs) has primarily been studied in static, fully observable settings, limiting their effectiveness in real-world environments where information is often incomplete due to occlusion or limited field of view. Humans, in contrast, actively explore and interact with their environment-moving, examining, and manipulating objects-to gather information through a closed-loop process integrating perception, reasoning, and action. Inspired by this human capability, we introduce the Active Visual Reasoning (AVR) task, extending visual reasoning to partially observable, interactive environments. AVR necessitates agents to: (1) actively acquire information via sequential physical actions, (2) integrate observations across multiple steps for coherent reasoning, and (3) dynamically adjust decisions based on evolving visual feedback. To rigorously evaluate AVR, we introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive environments designed to assess both reasoning correctness and information-gathering efficiency. We present AVR-152k, a large-scale dataset that offers rich Chain-of-Thought (CoT) annotations detailing iterative reasoning for uncertainty identification, action-conditioned information gain prediction, and information-maximizing action selection, crucial for training agents in a higher-order Markov Decision Process. Building on this, we develop PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR, embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath, Geometry30K). Our analysis also reveals that current embodied MLLMs, despite detecting information incompleteness, struggle to actively acquire and integrate new information through interaction, highlighting a fundamental gap in active reasoning capabilities.
PDF21December 17, 2025