ESPIRE: Un Punto de Referencia Diagnóstico para el Razonamiento Espacial Corporizado de Modelos de Visión y Lenguaje

Resumen

Una tendencia reciente en los modelos de visión y lenguaje (VLM) ha sido mejorar su cognición espacial para dominios de IA incorporada. A pesar del progreso, las evaluaciones existentes han sido limitadas tanto en paradigma como en cobertura, obstaculizando el desarrollo rápido e iterativo de modelos. Para abordar estas limitaciones, proponemos ESPIRE, un benchmark de diagnóstico para el razonamiento espacial incorporado. ESPIRE ofrece un mundo simulado que fundamenta físicamente a los VLM y los evalúa en tareas robóticas centradas en el razonamiento espacial, reduciendo así la brecha entre la evaluación y el despliegue en el mundo real. Para adaptar los VLM a tareas robóticas, descomponemos cada tarea en localización y ejecución, y enmarcamos ambas como problemas generativos, en marcado contraste con las evaluaciones discriminativas predominantes (por ejemplo, mediante respuesta a preguntas visuales) que dependen de distractores y descartan la ejecución. Esta descomposición permite además un análisis granular que va más allá del razonamiento espacial pasivo hacia el razonamiento para actuar. Diseñamos ESPIRE sistemáticamente tanto a nivel de instrucción como a nivel de entorno, garantizando una amplia cobertura de escenarios de razonamiento espacial. Utilizamos ESPIRE para diagnosticar una gama de VLM de vanguardia y proporcionar un análisis en profundidad de sus comportamientos de razonamiento espacial.

English

A recent trend in vision-language models (VLMs) has been to enhance their spatial cognition for embodied domains. Despite progress, existing evaluations have been limited both in paradigm and in coverage, hindering rapid, iterative model development. To address these limitations, we propose ESPIRE, a diagnostic benchmark for embodied spatial reasoning. ESPIRE offers a simulated world that physically grounds VLMs and evaluates them on spatial-reasoning-centric robotic tasks, thus narrowing the gap between evaluation and real-world deployment. To adapt VLMs to robotic tasks, we decompose each task into localization and execution, and frame both as generative problems, in stark contrast to predominant discriminative evaluations (e.g., via visual-question answering) that rely on distractors and discard execution. This decomposition further enables a fine-grained analysis beyond passive spatial reasoning toward reasoning to act. We systematically design ESPIRE both at the instruction level and at the environment level, ensuring broad coverage of spatial reasoning scenarios. We use ESPIRE to diagnose a range of frontier VLMs and provide in-depth analysis of their spatial reasoning behaviors.

ESPIRE: Un Punto de Referencia Diagnóstico para el Razonamiento Espacial Corporizado de Modelos de Visión y Lenguaje

ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Resumen

Support