ChatPaper.aiChatPaper

PhysVLM-AVR: Aktives visuelles Schließen für multimodale große Sprachmodelle in physischen Umgebungen

PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments

October 24, 2025
papers.authors: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI

papers.abstract

Visuelles Reasoning in multimodalen großen Sprachmodellen (MLLMs) wurde bisher hauptsächlich in statischen, vollständig beobachtbaren Umgebungen untersucht, was ihre Effektivität in realen Szenarien einschränkt, in denen Informationen oft durch Verdeckungen oder ein begrenztes Sichtfeld unvollständig sind. Menschen erkunden und interagieren im Gegensatz dazu aktiv mit ihrer Umgebung – sie bewegen sich, untersuchen und manipulieren Objekte –, um Informationen durch einen geschlossenen Kreislaufprozess zu sammeln, der Wahrnehmung, Reasoning und Handlung integriert. Inspiriert von dieser menschlichen Fähigkeit führen wir die Aufgabe des Aktiven Visuellen Reasonings (AVR) ein, die visuelles Reasoning auf teilweise beobachtbare, interaktive Umgebungen ausdehnt. AVR erfordert von Agenten: (1) aktive Informationsbeschaffung durch sequenzielle physische Aktionen, (2) Integration von Beobachtungen über mehrere Schritte hinweg für kohärentes Reasoning und (3) dynamische Anpassung von Entscheidungen auf der Grundlage sich entwickelnder visueller Rückmeldungen. Um AVR rigoros zu evaluieren, führen wir CLEVR-AVR ein, einen Simulationsbenchmark mit mehrfach interaktiven Umgebungen, der sowohl die Reasoning-Korrektheit als auch die Effizienz der Informationsbeschaffung bewertet. Wir stellen AVR-152k vor, einen groß angelegten Datensatz mit umfangreichen Chain-of-Thought (CoT)-Annotationen, die iteratives Reasoning zur Identifizierung von Unsicherheiten, aktionsbedingte Vorhersagen des Informationsgewinns und informationsmaximierende Aktionsauswahl detailliert beschreiben – entscheidend für das Training von Agenten in einem Markov-Entscheidungsprozess höherer Ordnung. Darauf aufbauend entwickeln wir PhysVLM-AVR, ein MLLM, das state-of-the-art Leistung auf CLEVR-AVR, embodied Reasoning (OpenEQA, RoboVQA) und passivem visuellem Reasoning (GeoMath, Geometry30K) erzielt. Unsere Analyse zeigt auch, dass aktuelle embodied MLLMs, obwohl sie unvollständige Informationen erkennen können, Schwierigkeiten haben, aktiv neue Informationen durch Interaktion zu erwerben und zu integrieren, was eine fundamentale Lücke in den aktiven Reasoning-Fähigkeiten aufzeigt.
English
Visual reasoning in multimodal large language models (MLLMs) has primarily been studied in static, fully observable settings, limiting their effectiveness in real-world environments where information is often incomplete due to occlusion or limited field of view. Humans, in contrast, actively explore and interact with their environment-moving, examining, and manipulating objects-to gather information through a closed-loop process integrating perception, reasoning, and action. Inspired by this human capability, we introduce the Active Visual Reasoning (AVR) task, extending visual reasoning to partially observable, interactive environments. AVR necessitates agents to: (1) actively acquire information via sequential physical actions, (2) integrate observations across multiple steps for coherent reasoning, and (3) dynamically adjust decisions based on evolving visual feedback. To rigorously evaluate AVR, we introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive environments designed to assess both reasoning correctness and information-gathering efficiency. We present AVR-152k, a large-scale dataset that offers rich Chain-of-Thought (CoT) annotations detailing iterative reasoning for uncertainty identification, action-conditioned information gain prediction, and information-maximizing action selection, crucial for training agents in a higher-order Markov Decision Process. Building on this, we develop PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR, embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath, Geometry30K). Our analysis also reveals that current embodied MLLMs, despite detecting information incompleteness, struggle to actively acquire and integrate new information through interaction, highlighting a fundamental gap in active reasoning capabilities.
PDF21December 17, 2025