Dalla Percezione all'Azione: Un Benchmark Interattivo per il Ragionamento Visivo

Abstract

Comprendere la struttura fisica è essenziale per applicazioni nel mondo reale come agenti embodied, progettazione interattiva e manipolazione a lungo termine. Tuttavia, le valutazioni prevalenti dei Modelli Linguaggio-Visione (VLM) si concentrano ancora su configurazioni monovalute e agnostiche alla struttura (ad esempio VQA), che non riescono a valutare la capacità degli agenti di ragionare su come geometria, contatti e relazioni di supporto vincolino congiuntamente le azioni possibili in un ambiente dinamico. Per colmare questa lacuna, introduciamo il benchmark CHAIN (Causal Hierarchy of Actions and Interactions), un banco di prova interattivo 3D guidato dalla fisica, progettato per valutare se i modelli possono comprendere, pianificare ed eseguire sequenze di azioni strutturate basate su vincoli fisici. CHAIN sposta la valutazione dalla percezione passiva alla risoluzione attiva di problemi, coprendo compiti come puzzle meccanici interlacciati e stacking/packing 3D. Conduciamo uno studio completo di modelli VLM e basati su diffusione all'avanguardia in impostazioni interattive unificate. I nostri risultati mostrano che i modelli migliori faticano ancora a interiorizzare la struttura fisica e i vincoli causali, spesso fallendo nel produrre piani affidabili a lungo termine e nell' tradurre robustamente la struttura percepita in azioni efficaci. Il progetto è disponibile su https://social-ai-studio.github.io/CHAIN/.

English

Understanding the physical structure is essential for real-world applications such as embodied agents, interactive design, and long-horizon manipulation. Yet, prevailing Vision-Language Model (VLM) evaluations still center on structure-agnostic, single-turn setups (e.g., VQA), which fail to assess agents' ability to reason about how geometry, contact, and support relations jointly constrain what actions are possible in a dynamic environment. To address this gap, we introduce the Causal Hierarchy of Actions and Interactions (CHAIN) benchmark, an interactive 3D, physics-driven testbed designed to evaluate whether models can understand, plan, and execute structured action sequences grounded in physical constraints. CHAIN shifts evaluation from passive perception to active problem solving, spanning tasks such as interlocking mechanical puzzles and 3D stacking and packing. We conduct a comprehensive study of state-of-the-art VLMs and diffusion-based models under unified interactive settings. Our results show that top-performing models still struggle to internalize physical structure and causal constraints, often failing to produce reliable long-horizon plans and cannot robustly translate perceived structure into effective actions. The project is available at https://social-ai-studio.github.io/CHAIN/.

Dalla Percezione all'Azione: Un Benchmark Interattivo per il Ragionamento Visivo

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Abstract

Support