Del Percepción a la Acción: Un Punto de Referencia Interactivo para el Razonamiento Visual

Resumen

Comprender la estructura física es esencial para aplicaciones del mundo real como agentes corporizados, diseño interactivo y manipulación de horizonte temporal prolongado. Sin embargo, las evaluaciones predominantes de Modelos de Visión y Lenguaje (VLM) aún se centran en configuraciones de un solo turno e independientes de la estructura (por ejemplo, VQA), que no logran evaluar la capacidad de los agentes para razonar sobre cómo la geometría, el contacto y las relaciones de soporte restringen conjuntamente qué acciones son posibles en un entorno dinámico. Para abordar esta brecha, presentamos el benchmark CHAIN (Causal Hierarchy of Actions and Interactions), un banco de pruebas interactivo en 3D y basado en física diseñado para evaluar si los modelos pueden comprender, planificar y ejecutar secuencias de acciones estructuradas basadas en restricciones físicas. CHAIN traslada la evaluación de la percepción pasiva a la resolución activa de problemas, abarcando tareas como rompecabezas mecánicos de ensamblaje por interlock y apilamiento/empaquetado en 3D. Realizamos un estudio exhaustivo de modelos VLM y basados en difusión de vanguardia bajo configuraciones interactivas unificadas. Nuestros resultados muestran que los modelos de mejor rendimiento aún tienen dificultades para internalizar la estructura física y las restricciones causales, a menudo fallando en producir planes confiables a largo plazo y sin poder traducir de manera robusta la estructura percibida en acciones efectivas. El proyecto está disponible en https://social-ai-studio.github.io/CHAIN/.

English

Understanding the physical structure is essential for real-world applications such as embodied agents, interactive design, and long-horizon manipulation. Yet, prevailing Vision-Language Model (VLM) evaluations still center on structure-agnostic, single-turn setups (e.g., VQA), which fail to assess agents' ability to reason about how geometry, contact, and support relations jointly constrain what actions are possible in a dynamic environment. To address this gap, we introduce the Causal Hierarchy of Actions and Interactions (CHAIN) benchmark, an interactive 3D, physics-driven testbed designed to evaluate whether models can understand, plan, and execute structured action sequences grounded in physical constraints. CHAIN shifts evaluation from passive perception to active problem solving, spanning tasks such as interlocking mechanical puzzles and 3D stacking and packing. We conduct a comprehensive study of state-of-the-art VLMs and diffusion-based models under unified interactive settings. Our results show that top-performing models still struggle to internalize physical structure and causal constraints, often failing to produce reliable long-horizon plans and cannot robustly translate perceived structure into effective actions. The project is available at https://social-ai-studio.github.io/CHAIN/.

Del Percepción a la Acción: Un Punto de Referencia Interactivo para el Razonamiento Visual

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Resumen

Support