ChatPaper.aiChatPaper

DeepPHY: Valutazione delle VLMs agentiche sul ragionamento fisico

DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

August 7, 2025
Autori: Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng
cs.AI

Abstract

Sebbene i Modelli Linguistico-Visivi (VLMs) dimostrino forti capacità percettive e un impressionante ragionamento visivo, faticano a prestare attenzione ai dettagli e a pianificare azioni precise in ambienti complessi e dinamici, portando a prestazioni inferiori. Le attività del mondo reale richiedono tipicamente interazioni complesse, ragionamento spaziale avanzato, pianificazione a lungo termine e un continuo affinamento della strategia, solitamente necessitando di una comprensione delle regole fisiche dello scenario di riferimento. Tuttavia, valutare queste capacità in scenari reali è spesso proibitivamente costoso. Per colmare questa lacuna, introduciamo DeepPHY, un nuovo framework di benchmark progettato per valutare sistematicamente la comprensione e il ragionamento dei VLMs sui principi fisici fondamentali attraverso una serie di ambienti simulati impegnativi. DeepPHY integra molteplici ambienti di ragionamento fisico con diversi livelli di difficoltà e incorpora metriche di valutazione granulari. La nostra valutazione rileva che anche i VLMs più avanzati faticano a tradurre la conoscenza fisica descrittiva in un controllo predittivo preciso.
English
Although Vision Language Models (VLMs) exhibit strong perceptual abilities and impressive visual reasoning, they struggle with attention to detail and precise action planning in complex, dynamic environments, leading to subpar performance. Real-world tasks typically require complex interactions, advanced spatial reasoning, long-term planning, and continuous strategy refinement, usually necessitating understanding the physics rules of the target scenario. However, evaluating these capabilities in real-world scenarios is often prohibitively expensive. To bridge this gap, we introduce DeepPHY, a novel benchmark framework designed to systematically evaluate VLMs' understanding and reasoning about fundamental physical principles through a series of challenging simulated environments. DeepPHY integrates multiple physical reasoning environments of varying difficulty levels and incorporates fine-grained evaluation metrics. Our evaluation finds that even state-of-the-art VLMs struggle to translate descriptive physical knowledge into precise, predictive control.
PDF642August 8, 2025