ChatPaper.aiChatPaper

PhysBench: Avaliação e Aprimoramento de Modelos de Visão-Linguagem para Compreensão do Mundo Físico

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

January 27, 2025
Autores: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang
cs.AI

Resumo

Compreender o mundo físico é um desafio fundamental na IA incorporada, crucial para capacitar agentes a realizar tarefas complexas e operar com segurança em ambientes do mundo real. Embora os Modelos Visão-Linguagem (VLMs) tenham mostrado grande promessa em raciocínio e planejamento de tarefas para agentes incorporados, sua capacidade de compreender fenômenos físicos permanece extremamente limitada. Para fechar essa lacuna, apresentamos o PhysBench, um benchmark abrangente projetado para avaliar a capacidade de compreensão do mundo físico dos VLMs em uma ampla variedade de tarefas. O PhysBench contém 10.002 entradas de dados de vídeo-imagem-texto entrelaçados, categorizados em quatro grandes domínios: propriedades de objetos físicos, relações entre objetos físicos, compreensão de cenas físicas e dinâmicas baseadas em física, divididas ainda em 19 subclasses e 8 dimensões de capacidade distintas. Nossos experimentos extensivos, realizados em 75 VLMs representativos, revelam que, embora esses modelos se destaquem no raciocínio de senso comum, eles têm dificuldade em compreender o mundo físico - provavelmente devido à ausência de conhecimento físico em seus dados de treinamento e à falta de premissas físicas incorporadas. Para lidar com essa deficiência, apresentamos o PhysAgent, um novo framework que combina as forças de generalização dos VLMs com a expertise especializada de modelos de visão, melhorando significativamente a compreensão física dos VLMs em uma variedade de tarefas, incluindo uma melhoria de 18,4\% no GPT-4o. Além disso, nossos resultados demonstram que aprimorar as capacidades de compreensão do mundo físico dos VLMs pode ajudar agentes incorporados, como o MOKA. Acreditamos que o PhysBench e o PhysAgent oferecem insights valiosos e contribuem para preencher a lacuna entre os VLMs e a compreensão do mundo físico.
English
Understanding the physical world is a fundamental challenge in embodied AI, critical for enabling agents to perform complex tasks and operate safely in real-world environments. While Vision-Language Models (VLMs) have shown great promise in reasoning and task planning for embodied agents, their ability to comprehend physical phenomena remains extremely limited. To close this gap, we introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs' physical world understanding capability across a diverse set of tasks. PhysBench contains 10,002 entries of interleaved video-image-text data, categorized into four major domains: physical object properties, physical object relationships, physical scene understanding, and physics-based dynamics, further divided into 19 subclasses and 8 distinct capability dimensions. Our extensive experiments, conducted on 75 representative VLMs, reveal that while these models excel in common-sense reasoning, they struggle with understanding the physical world -- likely due to the absence of physical knowledge in their training data and the lack of embedded physical priors. To tackle the shortfall, we introduce PhysAgent, a novel framework that combines the generalization strengths of VLMs with the specialized expertise of vision models, significantly enhancing VLMs' physical understanding across a variety of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results demonstrate that enhancing VLMs' physical world understanding capabilities can help embodied agents such as MOKA. We believe that PhysBench and PhysAgent offer valuable insights and contribute to bridging the gap between VLMs and physical world understanding.

Summary

AI-Generated Summary

PDF193January 31, 2025