ChatPaper.aiChatPaper

Von der Wahrnehmung zur Handlung: Eine interaktive Benchmark für visuelles Denken

From Perception to Action: An Interactive Benchmark for Vision Reasoning

February 24, 2026
Autoren: Yuhao Wu, Maojia Song, Yihuai Lan, Lei Wang, Zhiqiang Hu, Yao Xiao, Heng Zhou, Weihua Zheng, Dylan Raharja, Soujanya Poria, Roy Ka-Wei Lee
cs.AI

Zusammenfassung

Das Verständnis der physikalischen Struktur ist entscheidend für reale Anwendungen wie verkörperte Agenten, interaktives Design und Manipulation mit langem Zeithorizont. Dennoch konzentrieren sich gängige Evaluationen von Vision-Sprach-Modellen (VLM) nach wie vor auf strukturunabhängige, einstufige Setup-Formate (z.B. VQA), die nicht erfassen können, inwieweit Agenten in der Lage sind, zu schlussfolgern, wie Geometrie, Kontakt- und Stützrelationen gemeinsam einschränken, welche Aktionen in einer dynamischen Umgebung möglich sind. Um diese Lücke zu schließen, stellen wir den Causal Hierarchy of Actions and Interactions (CHAIN) Benchmark vor – eine interaktive, physikbasierte 3D-Testumgebung, die entwickelt wurde, um zu evaluieren, ob Modelle strukturierte Aktionssequenzen verstehen, planen und ausführen können, die auf physikalischen Zwängen basieren. CHAIN verlagert die Evaluation von passiver Wahrnehmung hin zu aktivem Problemlösen und umfasst Aufgaben wie das Zusammensetzen mechanischer Puzzles sowie 3D-Stapel- und Packaufgaben. Wir führen eine umfassende Studie modernster VLM- und diffusionsbasierter Modelle unter einheitlichen interaktiven Bedingungen durch. Unsere Ergebnisse zeigen, dass Spitzenmodelle nach wie vor Schwierigkeiten haben, physikalische Strukturen und kausale Zwänge zu internalisieren, häufig keine zuverlässigen Langzeitpläne erstellen können und wahrgenommene Strukturen nicht robust in effektive Aktionen umsetzen. Das Projekt ist verfügbar unter https://social-ai-studio.github.io/CHAIN/.
English
Understanding the physical structure is essential for real-world applications such as embodied agents, interactive design, and long-horizon manipulation. Yet, prevailing Vision-Language Model (VLM) evaluations still center on structure-agnostic, single-turn setups (e.g., VQA), which fail to assess agents' ability to reason about how geometry, contact, and support relations jointly constrain what actions are possible in a dynamic environment. To address this gap, we introduce the Causal Hierarchy of Actions and Interactions (CHAIN) benchmark, an interactive 3D, physics-driven testbed designed to evaluate whether models can understand, plan, and execute structured action sequences grounded in physical constraints. CHAIN shifts evaluation from passive perception to active problem solving, spanning tasks such as interlocking mechanical puzzles and 3D stacking and packing. We conduct a comprehensive study of state-of-the-art VLMs and diffusion-based models under unified interactive settings. Our results show that top-performing models still struggle to internalize physical structure and causal constraints, often failing to produce reliable long-horizon plans and cannot robustly translate perceived structure into effective actions. The project is available at https://social-ai-studio.github.io/CHAIN/.
PDF233March 28, 2026