PhysVLM-AVR: Ragionamento Visivo Attivo per Modelli Linguistici Multimodali di Grande Dimensione in Ambienti Fisici
PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
October 24, 2025
Autori: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI
Abstract
Il ragionamento visivo nei modelli linguistici multimodali di grandi dimensioni (MLLM) è stato studiato principalmente in contesti statici e completamente osservabili, limitandone l'efficacia negli ambienti reali, dove le informazioni sono spesso incomplete a causa di occlusioni o di un campo visivo limitato. Al contrario, gli esseri umani esplorano e interagiscono attivamente con l'ambiente circostante - muovendosi, esaminando e manipolando oggetti - per raccogliere informazioni attraverso un processo a ciclo chiuso che integra percezione, ragionamento e azione. Ispirati da questa capacità umana, introduciamo il compito di Ragionamento Visivo Attivo (AVR), che estende il ragionamento visivo ad ambienti interattivi e parzialmente osservabili. L'AVR richiede agli agenti di: (1) acquisire attivamente informazioni tramite azioni fisiche sequenziali, (2) integrare osservazioni multiple per un ragionamento coerente e (3) adattare dinamicamente le decisioni in base al feedback visivo in evoluzione. Per valutare rigorosamente l'AVR, presentiamo CLEVR-AVR, un benchmark di simulazione con ambienti interattivi multi-round progettati per valutare sia la correttezza del ragionamento che l'efficienza nella raccolta di informazioni. Presentiamo AVR-152k, un dataset su larga scala che offre ricche annotazioni di Catena del Pensiero (CoT) che dettagliano il ragionamento iterativo per l'identificazione dell'incertezza, la previsione del guadagno informativo condizionato all'azione e la selezione di azioni che massimizzano l'informazione, cruciali per l'addestramento di agenti in un Processo Decisionale di Markov di ordine superiore. Su questa base, sviluppiamo PhysVLM-AVR, un MLLM che raggiunge prestazioni all'avanguardia su CLEVR-AVR, ragionamento embodied (OpenEQA, RoboVQA) e ragionamento visivo passivo (GeoMath, Geometry30K). La nostra analisi rivela inoltre che gli attuali MLLM embodied, nonostante riescano a rilevare l'incompletezza informativa, faticano ad acquisire e integrare attivamente nuove informazioni attraverso l'interazione, evidenziando un divario fondamentale nelle capacità di ragionamento attivo.
English
Visual reasoning in multimodal large language models (MLLMs) has primarily
been studied in static, fully observable settings, limiting their effectiveness
in real-world environments where information is often incomplete due to
occlusion or limited field of view. Humans, in contrast, actively explore and
interact with their environment-moving, examining, and manipulating objects-to
gather information through a closed-loop process integrating perception,
reasoning, and action. Inspired by this human capability, we introduce the
Active Visual Reasoning (AVR) task, extending visual reasoning to partially
observable, interactive environments. AVR necessitates agents to: (1) actively
acquire information via sequential physical actions, (2) integrate observations
across multiple steps for coherent reasoning, and (3) dynamically adjust
decisions based on evolving visual feedback. To rigorously evaluate AVR, we
introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive
environments designed to assess both reasoning correctness and
information-gathering efficiency. We present AVR-152k, a large-scale dataset
that offers rich Chain-of-Thought (CoT) annotations detailing iterative
reasoning for uncertainty identification, action-conditioned information gain
prediction, and information-maximizing action selection, crucial for training
agents in a higher-order Markov Decision Process. Building on this, we develop
PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR,
embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath,
Geometry30K). Our analysis also reveals that current embodied MLLMs, despite
detecting information incompleteness, struggle to actively acquire and
integrate new information through interaction, highlighting a fundamental gap
in active reasoning capabilities.