PhysBench: Valutazione e Miglioramento dei Modelli Visione-Linguaggio per la Comprensione del Mondo Fisico
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
January 27, 2025
Autori: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang
cs.AI
Abstract
Comprendere il mondo fisico è una sfida fondamentale nell'ambito dell'IA incorporata, essenziale per consentire agli agenti di svolgere compiti complessi e operare in modo sicuro negli ambienti reali. Sebbene i Modelli Visione-Linguaggio (VLM) abbiano dimostrato un grande potenziale nel ragionamento e nella pianificazione delle attività per agenti incorporati, la loro capacità di comprendere i fenomeni fisici rimane estremamente limitata. Per colmare questa lacuna, presentiamo PhysBench, un benchmark completo progettato per valutare la capacità di comprensione del mondo fisico dei VLM attraverso una vasta gamma di compiti. PhysBench contiene 10.002 voci di dati video-immagine-testo intercalati, suddivisi in quattro principali domini: proprietà degli oggetti fisici, relazioni tra oggetti fisici, comprensione della scena fisica e dinamiche basate sulla fisica, ulteriormente suddivisi in 19 sottoclassi e 8 dimensioni di capacità distinte. I nostri ampi esperimenti, condotti su 75 VLM rappresentativi, rivelano che mentre questi modelli eccellono nel ragionamento di buon senso, faticano a comprendere il mondo fisico, probabilmente a causa dell'assenza di conoscenze fisiche nei dati di addestramento e della mancanza di priorità fisiche incorporate. Per affrontare questa carenza, presentiamo PhysAgent, un nuovo framework che combina i punti di forza della generalizzazione dei VLM con l'esperienza specializzata dei modelli di visione, migliorando significativamente la comprensione fisica dei VLM su una varietà di compiti, inclusi un miglioramento del 18,4\% su GPT-4o. Inoltre, i nostri risultati dimostrano che potenziare le capacità di comprensione del mondo fisico dei VLM può aiutare agenti incorporati come MOKA. Riteniamo che PhysBench e PhysAgent offrano preziose intuizioni e contribuiscano a colmare il divario tra i VLM e la comprensione del mondo fisico.
English
Understanding the physical world is a fundamental challenge in embodied AI,
critical for enabling agents to perform complex tasks and operate safely in
real-world environments. While Vision-Language Models (VLMs) have shown great
promise in reasoning and task planning for embodied agents, their ability to
comprehend physical phenomena remains extremely limited. To close this gap, we
introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs'
physical world understanding capability across a diverse set of tasks.
PhysBench contains 10,002 entries of interleaved video-image-text data,
categorized into four major domains: physical object properties, physical
object relationships, physical scene understanding, and physics-based dynamics,
further divided into 19 subclasses and 8 distinct capability dimensions. Our
extensive experiments, conducted on 75 representative VLMs, reveal that while
these models excel in common-sense reasoning, they struggle with understanding
the physical world -- likely due to the absence of physical knowledge in their
training data and the lack of embedded physical priors. To tackle the
shortfall, we introduce PhysAgent, a novel framework that combines the
generalization strengths of VLMs with the specialized expertise of vision
models, significantly enhancing VLMs' physical understanding across a variety
of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results
demonstrate that enhancing VLMs' physical world understanding capabilities can
help embodied agents such as MOKA. We believe that PhysBench and PhysAgent
offer valuable insights and contribute to bridging the gap between VLMs and
physical world understanding.Summary
AI-Generated Summary