PhysBench : Évaluation et Amélioration des Modèles Vision-Language pour la Compréhension du Monde Physique
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
January 27, 2025
Auteurs: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang
cs.AI
Résumé
Comprendre le monde physique est un défi fondamental en IA incarnée, crucial pour permettre aux agents d'accomplir des tâches complexes et d'opérer en toute sécurité dans des environnements réels. Alors que les Modèles Vision-Langage (VLM) ont montré un grand potentiel en matière de raisonnement et de planification de tâches pour les agents incarnés, leur capacité à comprendre les phénomènes physiques reste extrêmement limitée. Pour combler cette lacune, nous présentons PhysBench, un banc d'essai complet conçu pour évaluer la capacité des VLM à comprendre le monde physique à travers un ensemble diversifié de tâches. PhysBench contient 10 002 entrées de données vidéo-image-texte entrelacées, catégorisées en quatre grands domaines : propriétés d'objets physiques, relations entre objets physiques, compréhension de scènes physiques et dynamiques basées sur la physique, divisées en 19 sous-classes et 8 dimensions de capacité distinctes. Nos expériences approfondies, menées sur 75 VLM représentatifs, révèlent que bien que ces modèles excellent dans le raisonnement de bon sens, ils ont du mal à comprendre le monde physique -- probablement en raison de l'absence de connaissances physiques dans leurs données d'entraînement et du manque de préjugés physiques intégrés. Pour remédier à cette lacune, nous présentons PhysAgent, un nouveau cadre qui combine les forces de généralisation des VLM avec l'expertise spécialisée des modèles de vision, améliorant significativement la compréhension physique des VLM à travers une variété de tâches, y compris une amélioration de 18,4\% sur GPT-4o. De plus, nos résultats démontrent que renforcer les capacités de compréhension du monde physique des VLM peut aider les agents incarnés tels que MOKA. Nous pensons que PhysBench et PhysAgent offrent des perspectives précieuses et contribuent à combler le fossé entre les VLM et la compréhension du monde physique.
English
Understanding the physical world is a fundamental challenge in embodied AI,
critical for enabling agents to perform complex tasks and operate safely in
real-world environments. While Vision-Language Models (VLMs) have shown great
promise in reasoning and task planning for embodied agents, their ability to
comprehend physical phenomena remains extremely limited. To close this gap, we
introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs'
physical world understanding capability across a diverse set of tasks.
PhysBench contains 10,002 entries of interleaved video-image-text data,
categorized into four major domains: physical object properties, physical
object relationships, physical scene understanding, and physics-based dynamics,
further divided into 19 subclasses and 8 distinct capability dimensions. Our
extensive experiments, conducted on 75 representative VLMs, reveal that while
these models excel in common-sense reasoning, they struggle with understanding
the physical world -- likely due to the absence of physical knowledge in their
training data and the lack of embedded physical priors. To tackle the
shortfall, we introduce PhysAgent, a novel framework that combines the
generalization strengths of VLMs with the specialized expertise of vision
models, significantly enhancing VLMs' physical understanding across a variety
of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results
demonstrate that enhancing VLMs' physical world understanding capabilities can
help embodied agents such as MOKA. We believe that PhysBench and PhysAgent
offer valuable insights and contribute to bridging the gap between VLMs and
physical world understanding.Summary
AI-Generated Summary