ChatPaper.aiChatPaper

PhysBench: Оценка и улучшение моделей видео-языкового взаимодействия для понимания физического мира

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

January 27, 2025
Авторы: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang
cs.AI

Аннотация

Понимание физического мира является фундаментальным вызовом в технологии воплощенного искусственного интеллекта, что критически важно для обеспечения возможности агентам выполнять сложные задачи и безопасно функционировать в реальных средах. Визио-языковые модели (VLM) показали большой потенциал в рассуждениях и планировании задач для воплощенных агентов, однако их способность понимать физические явления остается крайне ограниченной. Для устранения этого разрыва мы представляем PhysBench, комплексный бенчмарк, разработанный для оценки способности VLM понимать физический мир на разнообразных задачах. PhysBench содержит 10 002 записи взаимосвязанных видео-изображение-текстовых данных, разделенных на четыре основных области: свойства физических объектов, отношения между физическими объектами, понимание физических сцен и физические динамики на основе физики, дополнительно разделенные на 19 подклассов и 8 различных измерений способностей. Наши обширные эксперименты, проведенные на 75 представительных VLM, показывают, что эти модели отлично справляются с рассуждениями на основе здравого смысла, но испытывают трудности с пониманием физического мира, вероятно из-за отсутствия физических знаний в их обучающих данных и отсутствия встроенных физических априорных знаний. Для решения этой проблемы мы представляем PhysAgent, новую структуру, которая объединяет сильные стороны обобщения VLM с специализированными знаниями моделей зрения, значительно улучшая способность VLM понимать физические явления на различных задачах, включая улучшение на 18,4\% для GPT-4o. Более того, наши результаты показывают, что улучшение способностей VLM понимать физический мир может помочь воплощенным агентам, таким как MOKA. Мы считаем, что PhysBench и PhysAgent предлагают ценные идеи и способствуют устранению разрыва между VLM и пониманием физического мира.
English
Understanding the physical world is a fundamental challenge in embodied AI, critical for enabling agents to perform complex tasks and operate safely in real-world environments. While Vision-Language Models (VLMs) have shown great promise in reasoning and task planning for embodied agents, their ability to comprehend physical phenomena remains extremely limited. To close this gap, we introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs' physical world understanding capability across a diverse set of tasks. PhysBench contains 10,002 entries of interleaved video-image-text data, categorized into four major domains: physical object properties, physical object relationships, physical scene understanding, and physics-based dynamics, further divided into 19 subclasses and 8 distinct capability dimensions. Our extensive experiments, conducted on 75 representative VLMs, reveal that while these models excel in common-sense reasoning, they struggle with understanding the physical world -- likely due to the absence of physical knowledge in their training data and the lack of embedded physical priors. To tackle the shortfall, we introduce PhysAgent, a novel framework that combines the generalization strengths of VLMs with the specialized expertise of vision models, significantly enhancing VLMs' physical understanding across a variety of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results demonstrate that enhancing VLMs' physical world understanding capabilities can help embodied agents such as MOKA. We believe that PhysBench and PhysAgent offer valuable insights and contribute to bridging the gap between VLMs and physical world understanding.

Summary

AI-Generated Summary

PDF193January 31, 2025