DeepPHY: Оценка агентных визуально-языковых моделей на задачах физического рассуждения

Аннотация

Хотя модели, объединяющие зрение и язык (Vision Language Models, VLMs), демонстрируют мощные перцептивные способности и впечатляющее визуальное мышление, они испытывают трудности с вниманием к деталям и точным планированием действий в сложных, динамичных средах, что приводит к неудовлетворительной производительности. Реальные задачи обычно требуют сложных взаимодействий, продвинутого пространственного мышления, долгосрочного планирования и непрерывного уточнения стратегии, что зачастую подразумевает понимание физических законов целевого сценария. Однако оценка этих способностей в реальных условиях часто оказывается чрезмерно затратной. Чтобы устранить этот разрыв, мы представляем DeepPHY — новый эталонный фреймворк, предназначенный для систематической оценки понимания и рассуждений VLMs о фундаментальных физических принципах через серию сложных симулированных сред. DeepPHY интегрирует множество сред для физического мышления различного уровня сложности и включает детализированные метрики оценки. Наши результаты показывают, что даже передовые VLMs испытывают трудности с преобразованием описательных знаний о физике в точное, прогнозируемое управление.

English

Although Vision Language Models (VLMs) exhibit strong perceptual abilities and impressive visual reasoning, they struggle with attention to detail and precise action planning in complex, dynamic environments, leading to subpar performance. Real-world tasks typically require complex interactions, advanced spatial reasoning, long-term planning, and continuous strategy refinement, usually necessitating understanding the physics rules of the target scenario. However, evaluating these capabilities in real-world scenarios is often prohibitively expensive. To bridge this gap, we introduce DeepPHY, a novel benchmark framework designed to systematically evaluate VLMs' understanding and reasoning about fundamental physical principles through a series of challenging simulated environments. DeepPHY integrates multiple physical reasoning environments of varying difficulty levels and incorporates fine-grained evaluation metrics. Our evaluation finds that even state-of-the-art VLMs struggle to translate descriptive physical knowledge into precise, predictive control.

DeepPHY: Оценка агентных визуально-языковых моделей на задачах физического рассуждения

DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

Аннотация

Support