От восприятия к действию: интерактивный эталон для зрительного мышления

Аннотация

Понимание физической структуры является ключевым для практических применений, таких как воплощенные агенты, интерактивный дизайн и манипуляции в долгосрочном горизонте. Однако преобладающие оценки моделей "визуальный язык" (VLM) по-прежнему сосредоточены на агностичных к структуре, одношаговых сценариях (например, VQA), которые не позволяют оценить способность агентов анализировать, как геометрия, контактные и опорные отношения совместно ограничивают возможные действия в динамической среде. Для устранения этого пробела мы представляем эталонный тест Causal Hierarchy of Actions and Interactions (CHAIN) — интерактивный 3D-полигон, управляемый законами физики, предназначенный для оценки способности моделей понимать, планировать и выполнять структурированные последовательности действий, основанные на физических ограничениях. CHAIN смещает фокусировку оценки с пассивного восприятия на активное решение задач, охватывая такие области, как сборка механических головоломок с зацеплением, а также 3D-штабелирование и упаковка. Мы проводим всестороннее исследование современных VLM и диффузионных моделей в единых интерактивных условиях. Наши результаты показывают, что даже лучшие модели по-прежнему испытывают трудности с усвоением физической структуры и причинно-следственных ограничений, часто неспособны вырабатывать надежные долгосрочные планы и не могут устойчиво преобразовывать воспринятую структуру в эффективные действия. Проект доступен по адресу https://social-ai-studio.github.io/CHAIN/.

English

Understanding the physical structure is essential for real-world applications such as embodied agents, interactive design, and long-horizon manipulation. Yet, prevailing Vision-Language Model (VLM) evaluations still center on structure-agnostic, single-turn setups (e.g., VQA), which fail to assess agents' ability to reason about how geometry, contact, and support relations jointly constrain what actions are possible in a dynamic environment. To address this gap, we introduce the Causal Hierarchy of Actions and Interactions (CHAIN) benchmark, an interactive 3D, physics-driven testbed designed to evaluate whether models can understand, plan, and execute structured action sequences grounded in physical constraints. CHAIN shifts evaluation from passive perception to active problem solving, spanning tasks such as interlocking mechanical puzzles and 3D stacking and packing. We conduct a comprehensive study of state-of-the-art VLMs and diffusion-based models under unified interactive settings. Our results show that top-performing models still struggle to internalize physical structure and causal constraints, often failing to produce reliable long-horizon plans and cannot robustly translate perceived structure into effective actions. The project is available at https://social-ai-studio.github.io/CHAIN/.

От восприятия к действию: интерактивный эталон для зрительного мышления

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Аннотация

Support