DeepPHY: Benchmarking van agentische VLMs voor fysiek redeneren

Samenvatting

Hoewel Vision Language Models (VLMs) sterke perceptuele vaardigheden en indrukwekkend visueel redeneervermogen vertonen, hebben ze moeite met aandacht voor detail en precieze actieplanning in complexe, dynamische omgevingen, wat leidt tot ondermaatse prestaties. Taken in de echte wereld vereisen doorgaans complexe interacties, geavanceerd ruimtelijk redeneervermogen, langetermijnplanning en continue strategieverfijning, wat meestal inzicht in de fysieke regels van het betreffende scenario vereist. Het evalueren van deze capaciteiten in realistische scenario's is echter vaak buitensporig kostbaar. Om deze kloof te overbruggen, introduceren we DeepPHY, een nieuw benchmarkraamwerk dat is ontworpen om het begrip en redeneervermogen van VLMs over fundamentele fysische principes systematisch te evalueren via een reeks uitdagende gesimuleerde omgevingen. DeepPHY integreert meerdere fysieke redeneeromgevingen van verschillende moeilijkheidsgraden en bevat gedetailleerde evaluatiemetrics. Onze evaluatie toont aan dat zelfs state-of-the-art VLMs moeite hebben om beschrijvende fysieke kennis om te zetten in precieze, voorspellende controle.

English

Although Vision Language Models (VLMs) exhibit strong perceptual abilities and impressive visual reasoning, they struggle with attention to detail and precise action planning in complex, dynamic environments, leading to subpar performance. Real-world tasks typically require complex interactions, advanced spatial reasoning, long-term planning, and continuous strategy refinement, usually necessitating understanding the physics rules of the target scenario. However, evaluating these capabilities in real-world scenarios is often prohibitively expensive. To bridge this gap, we introduce DeepPHY, a novel benchmark framework designed to systematically evaluate VLMs' understanding and reasoning about fundamental physical principles through a series of challenging simulated environments. DeepPHY integrates multiple physical reasoning environments of varying difficulty levels and incorporates fine-grained evaluation metrics. Our evaluation finds that even state-of-the-art VLMs struggle to translate descriptive physical knowledge into precise, predictive control.

DeepPHY: Benchmarking van agentische VLMs voor fysiek redeneren

DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

Samenvatting

Support