Da Percepção à Ação: Um Benchmark Interativo para Raciocínio Visual

Resumo

Compreender a estrutura física é essencial para aplicações do mundo real, como agentes corporificados, design interativo e manipulação de longo horizonte. No entanto, as avaliações predominantes de Modelos de Visão e Linguagem (VLM) ainda se centram em configurações de turno único e agnósticas à estrutura (por exemplo, VQA), que não avaliam a capacidade dos agentes de raciocinar sobre como a geometria, o contacto e as relações de suporte restringem conjuntamente quais ações são possíveis num ambiente dinâmico. Para colmatar esta lacuna, introduzimos o benchmark CHAIN (Causal Hierarchy of Actions and Interactions), um banco de testes interativo, tridimensional e orientado pela física, concebido para avaliar se os modelos conseguem compreender, planear e executar sequências de ações estruturadas com base em restrições físicas. O CHAIN muda a avaliação da perceção passiva para a resolução ativa de problemas, abrangendo tarefas como quebra-cabeças mecânicos de encaixe e empilhamento e empacotamento 3D. Realizamos um estudo abrangente de VLMs e modelos baseados em difusão de última geração em configurações interativas unificadas. Os nossos resultados mostram que os modelos com melhor desempenho ainda têm dificuldade em internalizar a estrutura física e as restrições causais, falhando frequentemente na produção de planos confiáveis de longo horizonte e não conseguindo traduzir robustamente a estrutura percecionada em ações eficazes. O projeto está disponível em https://social-ai-studio.github.io/CHAIN/.

English

Understanding the physical structure is essential for real-world applications such as embodied agents, interactive design, and long-horizon manipulation. Yet, prevailing Vision-Language Model (VLM) evaluations still center on structure-agnostic, single-turn setups (e.g., VQA), which fail to assess agents' ability to reason about how geometry, contact, and support relations jointly constrain what actions are possible in a dynamic environment. To address this gap, we introduce the Causal Hierarchy of Actions and Interactions (CHAIN) benchmark, an interactive 3D, physics-driven testbed designed to evaluate whether models can understand, plan, and execute structured action sequences grounded in physical constraints. CHAIN shifts evaluation from passive perception to active problem solving, spanning tasks such as interlocking mechanical puzzles and 3D stacking and packing. We conduct a comprehensive study of state-of-the-art VLMs and diffusion-based models under unified interactive settings. Our results show that top-performing models still struggle to internalize physical structure and causal constraints, often failing to produce reliable long-horizon plans and cannot robustly translate perceived structure into effective actions. The project is available at https://social-ai-studio.github.io/CHAIN/.

Da Percepção à Ação: Um Benchmark Interativo para Raciocínio Visual

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Resumo

Support