PhysBench: Evaluación y Mejora de Modelos Visión-Lenguaje para la Comprensión del Mundo Físico
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
January 27, 2025
Autores: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang
cs.AI
Resumen
Comprender el mundo físico es un desafío fundamental en la IA incorporada, crucial para permitir que los agentes realicen tareas complejas y operen de manera segura en entornos del mundo real. Si bien los Modelos de Visión-Lenguaje (VLMs) han mostrado un gran potencial en razonamiento y planificación de tareas para agentes incorporados, su capacidad para comprender fenómenos físicos sigue siendo extremadamente limitada. Para cerrar esta brecha, presentamos PhysBench, un banco de pruebas integral diseñado para evaluar la capacidad de comprensión del mundo físico de los VLMs a través de un conjunto diverso de tareas. PhysBench contiene 10,002 entradas de datos de video-imagen-texto entrelazados, categorizados en cuatro dominios principales: propiedades de objetos físicos, relaciones entre objetos físicos, comprensión de escenas físicas y dinámicas basadas en la física, divididas además en 19 subclases y 8 dimensiones de capacidad distintas. Nuestros experimentos extensos, realizados en 75 VLMs representativos, revelan que si bien estos modelos sobresalen en el razonamiento de sentido común, tienen dificultades para comprender el mundo físico, probablemente debido a la ausencia de conocimiento físico en sus datos de entrenamiento y a la falta de precursores físicos integrados. Para abordar esta deficiencia, presentamos PhysAgent, un marco novedoso que combina las fortalezas de generalización de los VLMs con la experiencia especializada de los modelos de visión, mejorando significativamente la comprensión física de los VLMs en una variedad de tareas, incluida una mejora del 18.4\% en GPT-4o. Además, nuestros resultados demuestran que mejorar las capacidades de comprensión del mundo físico de los VLMs puede ayudar a agentes incorporados como MOKA. Creemos que PhysBench y PhysAgent ofrecen ideas valiosas y contribuyen a cerrar la brecha entre los VLMs y la comprensión del mundo físico.
English
Understanding the physical world is a fundamental challenge in embodied AI,
critical for enabling agents to perform complex tasks and operate safely in
real-world environments. While Vision-Language Models (VLMs) have shown great
promise in reasoning and task planning for embodied agents, their ability to
comprehend physical phenomena remains extremely limited. To close this gap, we
introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs'
physical world understanding capability across a diverse set of tasks.
PhysBench contains 10,002 entries of interleaved video-image-text data,
categorized into four major domains: physical object properties, physical
object relationships, physical scene understanding, and physics-based dynamics,
further divided into 19 subclasses and 8 distinct capability dimensions. Our
extensive experiments, conducted on 75 representative VLMs, reveal that while
these models excel in common-sense reasoning, they struggle with understanding
the physical world -- likely due to the absence of physical knowledge in their
training data and the lack of embedded physical priors. To tackle the
shortfall, we introduce PhysAgent, a novel framework that combines the
generalization strengths of VLMs with the specialized expertise of vision
models, significantly enhancing VLMs' physical understanding across a variety
of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results
demonstrate that enhancing VLMs' physical world understanding capabilities can
help embodied agents such as MOKA. We believe that PhysBench and PhysAgent
offer valuable insights and contribute to bridging the gap between VLMs and
physical world understanding.Summary
AI-Generated Summary