PhysBench: Benchmarking und Verbesserung von Vision-Language-Modellen für das Verständnis der physischen Welt
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
January 27, 2025
Autoren: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang
cs.AI
Zusammenfassung
Das Verständnis der physischen Welt ist eine grundlegende Herausforderung in der verkörperten KI, die entscheidend ist, um Agenten zu ermöglichen, komplexe Aufgaben auszuführen und sicher in realen Umgebungen zu agieren. Während Vision-Language-Modelle (VLMs) großes Potenzial in der Schlussfolgerung und Aufgabenplanung für verkörperte Agenten gezeigt haben, bleibt ihre Fähigkeit, physische Phänomene zu begreifen, äußerst begrenzt. Um diese Lücke zu schließen, führen wir PhysBench ein, einen umfassenden Benchmark, der entwickelt wurde, um die Fähigkeit von VLMs zum Verständnis der physischen Welt über eine vielfältige Aufgabensammlung zu bewerten. PhysBench enthält 10.002 Einträge von ineinandergreifenden Video-Bild-Text-Daten, kategorisiert in vier Hauptbereiche: physische Objekteigenschaften, physische Objektbeziehungen, physisches Szenenverständnis und physikbasierte Dynamik, weiter unterteilt in 19 Unterklassen und 8 unterschiedliche Fähigkeitsdimensionen. Unsere umfangreichen Experimente, durchgeführt an 75 repräsentativen VLMs, zeigen, dass diese Modelle zwar in der Vernunftschlussfolgerung herausragend sind, jedoch Schwierigkeiten haben, die physische Welt zu verstehen - wahrscheinlich aufgrund des Mangels an physikalischem Wissen in ihren Trainingsdaten und des Fehlens eingebetteter physikalischer Voraussetzungen. Um diesem Mangel entgegenzuwirken, führen wir PhysAgent ein, ein neuartiges Framework, das die Verallgemeinerungsstärken von VLMs mit der spezialisierten Expertise von Vision-Modellen kombiniert und damit das physische Verständnis von VLMs über eine Vielzahl von Aufgaben erheblich verbessert, einschließlich einer 18,4\%igen Verbesserung bei GPT-4o. Darüber hinaus zeigen unsere Ergebnisse, dass die Verbesserung der Fähigkeiten von VLMs im Verständnis der physischen Welt verkörperten Agenten wie MOKA helfen kann. Wir sind der Überzeugung, dass PhysBench und PhysAgent wertvolle Einblicke bieten und dazu beitragen, die Kluft zwischen VLMs und dem Verständnis der physischen Welt zu überbrücken.
English
Understanding the physical world is a fundamental challenge in embodied AI,
critical for enabling agents to perform complex tasks and operate safely in
real-world environments. While Vision-Language Models (VLMs) have shown great
promise in reasoning and task planning for embodied agents, their ability to
comprehend physical phenomena remains extremely limited. To close this gap, we
introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs'
physical world understanding capability across a diverse set of tasks.
PhysBench contains 10,002 entries of interleaved video-image-text data,
categorized into four major domains: physical object properties, physical
object relationships, physical scene understanding, and physics-based dynamics,
further divided into 19 subclasses and 8 distinct capability dimensions. Our
extensive experiments, conducted on 75 representative VLMs, reveal that while
these models excel in common-sense reasoning, they struggle with understanding
the physical world -- likely due to the absence of physical knowledge in their
training data and the lack of embedded physical priors. To tackle the
shortfall, we introduce PhysAgent, a novel framework that combines the
generalization strengths of VLMs with the specialized expertise of vision
models, significantly enhancing VLMs' physical understanding across a variety
of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results
demonstrate that enhancing VLMs' physical world understanding capabilities can
help embodied agents such as MOKA. We believe that PhysBench and PhysAgent
offer valuable insights and contribute to bridging the gap between VLMs and
physical world understanding.Summary
AI-Generated Summary