ESPIRE : Un Benchmark Diagnostique pour le Raisonnement Spatial Incarné des Modèles Vision-Langage

Résumé

Une tendance récente dans les modèles vision-langage (VLM) consiste à améliorer leur cognition spatiale pour les domaines incarnés. Malgré les progrès réalisés, les évaluations existantes ont été limitées tant sur le plan du paradigme que de la couverture, entravant le développement rapide et itératif des modèles. Pour remédier à ces limitations, nous proposons ESPIRE, un benchmark diagnostique pour le raisonnement spatial incarné. ESPIRE offre un monde simulé qui ancre physiquement les VLM et les évalue sur des tâches robotiques centrées sur le raisonnement spatial, réduisant ainsi l'écart entre l'évaluation et le déploiement réel. Pour adapter les VLM aux tâches robotiques, nous décomposons chaque tâche en localisation et exécution, et formulons les deux comme des problèmes génératifs, en contraste marqué avec les évaluations discriminatives prédominantes (par exemple, via des questions-réponses visuelles) qui reposent sur des distracteurs et ignorent l'exécution. Cette décomposition permet en outre une analyse granulaire au-delà du raisonnement spatial passif, vers un raisonnement pour l'action. Nous concevons systématiquement ESPIRE à la fois au niveau des instructions et au niveau de l'environnement, garantissant une couverture étendue des scénarios de raisonnement spatial. Nous utilisons ESPIRE pour diagnostiquer une gamme de VLM de pointe et fournissons une analyse approfondie de leurs comportements de raisonnement spatial.

English

A recent trend in vision-language models (VLMs) has been to enhance their spatial cognition for embodied domains. Despite progress, existing evaluations have been limited both in paradigm and in coverage, hindering rapid, iterative model development. To address these limitations, we propose ESPIRE, a diagnostic benchmark for embodied spatial reasoning. ESPIRE offers a simulated world that physically grounds VLMs and evaluates them on spatial-reasoning-centric robotic tasks, thus narrowing the gap between evaluation and real-world deployment. To adapt VLMs to robotic tasks, we decompose each task into localization and execution, and frame both as generative problems, in stark contrast to predominant discriminative evaluations (e.g., via visual-question answering) that rely on distractors and discard execution. This decomposition further enables a fine-grained analysis beyond passive spatial reasoning toward reasoning to act. We systematically design ESPIRE both at the instruction level and at the environment level, ensuring broad coverage of spatial reasoning scenarios. We use ESPIRE to diagnose a range of frontier VLMs and provide in-depth analysis of their spatial reasoning behaviors.

ESPIRE : Un Benchmark Diagnostique pour le Raisonnement Spatial Incarné des Modèles Vision-Langage

ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Résumé

Support