De la perception à l'action : un benchmark interactif pour le raisonnement visuel

Résumé

Comprendre la structure physique est essentiel pour des applications concrètes telles que les agents incarnés, la conception interactive et la manipulation à long terme. Pourtant, les évaluations prédominantes des modèles vision-langage (VLM) se concentrent encore sur des configurations agnostiques à la structure et en un seul tour (par exemple, VQA), qui ne parviennent pas à évaluer la capacité des agents à raisonner sur la manière dont la géométrie, les contacts et les relations de support contraignent conjointement les actions possibles dans un environnement dynamique. Pour combler cette lacune, nous présentons le benchmark CHAIN (Causal Hierarchy of Actions and Interactions), un banc d'essai interactif 3D et piloté par la physique conçu pour évaluer si les modèles peuvent comprendre, planifier et exécuter des séquences d'actions structurées fondées sur des contraintes physiques. CHAIN fait passer l'évaluation de la perception passive à la résolution active de problèmes, couvrant des tâches telles que l'assemblage de puzzles mécaniques imbriqués et l'empilement et le rangement en 3D. Nous menons une étude complète des VLM et des modèles basés sur la diffusion les plus performants dans des paramètres interactifs unifiés. Nos résultats montrent que les modèles les plus performants peinent encore à internaliser la structure physique et les contraintes causales, échouant souvent à produire des plans fiables à long terme et n'arrivant pas à traduire robustement la structure perçue en actions efficaces. Le projet est disponible à l'adresse https://social-ai-studio.github.io/CHAIN/.

English

Understanding the physical structure is essential for real-world applications such as embodied agents, interactive design, and long-horizon manipulation. Yet, prevailing Vision-Language Model (VLM) evaluations still center on structure-agnostic, single-turn setups (e.g., VQA), which fail to assess agents' ability to reason about how geometry, contact, and support relations jointly constrain what actions are possible in a dynamic environment. To address this gap, we introduce the Causal Hierarchy of Actions and Interactions (CHAIN) benchmark, an interactive 3D, physics-driven testbed designed to evaluate whether models can understand, plan, and execute structured action sequences grounded in physical constraints. CHAIN shifts evaluation from passive perception to active problem solving, spanning tasks such as interlocking mechanical puzzles and 3D stacking and packing. We conduct a comprehensive study of state-of-the-art VLMs and diffusion-based models under unified interactive settings. Our results show that top-performing models still struggle to internalize physical structure and causal constraints, often failing to produce reliable long-horizon plans and cannot robustly translate perceived structure into effective actions. The project is available at https://social-ai-studio.github.io/CHAIN/.

De la perception à l'action : un benchmark interactif pour le raisonnement visuel

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Résumé

Support