PhysVLM-AVR : Raisonnement visuel actif pour les grands modèles de langage multimodaux dans les environnements physiques
PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
October 24, 2025
papers.authors: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang
cs.AI
papers.abstract
Le raisonnement visuel dans les modèles de langage multimodaux (MLLM) a principalement été étudié dans des contextes statiques et entièrement observables, limitant ainsi leur efficacité dans les environnements réels où l'information est souvent incomplète en raison d'occlusions ou d'un champ de vision restreint. Les humains, en revanche, explorent et interagissent activement avec leur environnement – en se déplaçant, en examinant et en manipulant des objets – pour recueillir des informations via un processus en boucle fermée intégrant la perception, le raisonnement et l'action. Inspirés par cette capacité humaine, nous introduisons la tâche de Raisonnement Visuel Actif (AVR), étendant le raisonnement visuel à des environnements interactifs partiellement observables. L'AVR exige que les agents : (1) acquièrent activement des informations via des actions physiques séquentielles, (2) intègrent les observations sur plusieurs étapes pour un raisonnement cohérent, et (3) ajustent dynamiquement leurs décisions en fonction des retours visuels évolutifs. Pour évaluer rigoureusement l'AVR, nous présentons CLEVR-AVR, un benchmark de simulation comportant des environnements interactifs multi-tours conçus pour évaluer à la fois la justesse du raisonnement et l'efficacité de la collecte d'informations. Nous présentons AVR-152k, un jeu de données à grande échelle offrant de riches annotations de Chaîne de Pensée (CoT) détaillant le raisonnement itératif pour l'identification de l'incertitude, la prédiction du gain d'information conditionné par l'action, et la sélection d'actions maximisant l'information, essentiels pour l'entraînement d'agents dans un Processus de Décision Markovien d'ordre supérieur. Sur cette base, nous développons PhysVLM-AVR, un MLLM atteignant des performances de pointe sur CLEVR-AVR, le raisonnement incarné (OpenEQA, RoboVQA) et le raisonnement visuel passif (GeoMath, Geometry30K). Notre analyse révèle également que les MLLM incarnés actuels, bien que capables de détecter l'incomplétude de l'information, peinent à acquérir et intégrer activement de nouvelles informations via l'interaction, soulignant un déficit fondamental dans les capacités de raisonnement actif.
English
Visual reasoning in multimodal large language models (MLLMs) has primarily
been studied in static, fully observable settings, limiting their effectiveness
in real-world environments where information is often incomplete due to
occlusion or limited field of view. Humans, in contrast, actively explore and
interact with their environment-moving, examining, and manipulating objects-to
gather information through a closed-loop process integrating perception,
reasoning, and action. Inspired by this human capability, we introduce the
Active Visual Reasoning (AVR) task, extending visual reasoning to partially
observable, interactive environments. AVR necessitates agents to: (1) actively
acquire information via sequential physical actions, (2) integrate observations
across multiple steps for coherent reasoning, and (3) dynamically adjust
decisions based on evolving visual feedback. To rigorously evaluate AVR, we
introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive
environments designed to assess both reasoning correctness and
information-gathering efficiency. We present AVR-152k, a large-scale dataset
that offers rich Chain-of-Thought (CoT) annotations detailing iterative
reasoning for uncertainty identification, action-conditioned information gain
prediction, and information-maximizing action selection, crucial for training
agents in a higher-order Markov Decision Process. Building on this, we develop
PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR,
embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath,
Geometry30K). Our analysis also reveals that current embodied MLLMs, despite
detecting information incompleteness, struggle to actively acquire and
integrate new information through interaction, highlighting a fundamental gap
in active reasoning capabilities.