DeepPHY: Оценка агентных визуально-языковых моделей на задачах физического рассуждения
DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning
August 7, 2025
Авторы: Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng
cs.AI
Аннотация
Хотя модели, объединяющие зрение и язык (Vision Language Models, VLMs), демонстрируют мощные перцептивные способности и впечатляющее визуальное мышление, они испытывают трудности с вниманием к деталям и точным планированием действий в сложных, динамичных средах, что приводит к неудовлетворительной производительности. Реальные задачи обычно требуют сложных взаимодействий, продвинутого пространственного мышления, долгосрочного планирования и непрерывного уточнения стратегии, что зачастую подразумевает понимание физических законов целевого сценария. Однако оценка этих способностей в реальных условиях часто оказывается чрезмерно затратной. Чтобы устранить этот разрыв, мы представляем DeepPHY — новый эталонный фреймворк, предназначенный для систематической оценки понимания и рассуждений VLMs о фундаментальных физических принципах через серию сложных симулированных сред. DeepPHY интегрирует множество сред для физического мышления различного уровня сложности и включает детализированные метрики оценки. Наши результаты показывают, что даже передовые VLMs испытывают трудности с преобразованием описательных знаний о физике в точное, прогнозируемое управление.
English
Although Vision Language Models (VLMs) exhibit strong perceptual abilities
and impressive visual reasoning, they struggle with attention to detail and
precise action planning in complex, dynamic environments, leading to subpar
performance. Real-world tasks typically require complex interactions, advanced
spatial reasoning, long-term planning, and continuous strategy refinement,
usually necessitating understanding the physics rules of the target scenario.
However, evaluating these capabilities in real-world scenarios is often
prohibitively expensive. To bridge this gap, we introduce DeepPHY, a novel
benchmark framework designed to systematically evaluate VLMs' understanding and
reasoning about fundamental physical principles through a series of challenging
simulated environments. DeepPHY integrates multiple physical reasoning
environments of varying difficulty levels and incorporates fine-grained
evaluation metrics. Our evaluation finds that even state-of-the-art VLMs
struggle to translate descriptive physical knowledge into precise, predictive
control.