DeepPHY: Benchmarking van agentische VLMs voor fysiek redeneren
DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning
August 7, 2025
Auteurs: Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng
cs.AI
Samenvatting
Hoewel Vision Language Models (VLMs) sterke perceptuele vaardigheden en indrukwekkend visueel redeneervermogen vertonen, hebben ze moeite met aandacht voor detail en precieze actieplanning in complexe, dynamische omgevingen, wat leidt tot ondermaatse prestaties. Taken in de echte wereld vereisen doorgaans complexe interacties, geavanceerd ruimtelijk redeneervermogen, langetermijnplanning en continue strategieverfijning, wat meestal inzicht in de fysieke regels van het betreffende scenario vereist. Het evalueren van deze capaciteiten in realistische scenario's is echter vaak buitensporig kostbaar. Om deze kloof te overbruggen, introduceren we DeepPHY, een nieuw benchmarkraamwerk dat is ontworpen om het begrip en redeneervermogen van VLMs over fundamentele fysische principes systematisch te evalueren via een reeks uitdagende gesimuleerde omgevingen. DeepPHY integreert meerdere fysieke redeneeromgevingen van verschillende moeilijkheidsgraden en bevat gedetailleerde evaluatiemetrics. Onze evaluatie toont aan dat zelfs state-of-the-art VLMs moeite hebben om beschrijvende fysieke kennis om te zetten in precieze, voorspellende controle.
English
Although Vision Language Models (VLMs) exhibit strong perceptual abilities
and impressive visual reasoning, they struggle with attention to detail and
precise action planning in complex, dynamic environments, leading to subpar
performance. Real-world tasks typically require complex interactions, advanced
spatial reasoning, long-term planning, and continuous strategy refinement,
usually necessitating understanding the physics rules of the target scenario.
However, evaluating these capabilities in real-world scenarios is often
prohibitively expensive. To bridge this gap, we introduce DeepPHY, a novel
benchmark framework designed to systematically evaluate VLMs' understanding and
reasoning about fundamental physical principles through a series of challenging
simulated environments. DeepPHY integrates multiple physical reasoning
environments of varying difficulty levels and incorporates fine-grained
evaluation metrics. Our evaluation finds that even state-of-the-art VLMs
struggle to translate descriptive physical knowledge into precise, predictive
control.