SpatialWorld: Evaluación comparativa del razonamiento espacial interactivo de agentes multimodales en tareas del mundo real

Resumen

El razonamiento espacial es una capacidad fundamental para que los modelos de lenguaje grandes multimodales (MLLM) perciban y operen en el mundo físico. Sin embargo, los puntos de referencia existentes se basan predominantemente en la evaluación pasiva (por ejemplo, VQA estática) o en pipelines específicos del simulador, sin evaluar la comprensión espacial interactiva general. Presentamos SpatialWorld, un punto de referencia unificado diseñado específicamente para evaluar la comprensión espacial interactiva de agentes multimodales en tareas complejas del mundo real. Al integrar ocho backends de simulación heterogéneos bajo un protocolo compartido e independiente del simulador, SpatialWorld cuenta con 760 tareas anotadas por humanos en diversos dominios (por ejemplo, rutinas domésticas, viajes, colaboración social). Los agentes deben resolver tareas bajo observabilidad parcial únicamente visual, recopilando activamente evidencia visual egocéntrica y expresando decisiones a través de una interfaz de acción unificada basada en texto, nativa de los MLLM. Para una evaluación confiable, cada tarea incluye un estado inicial validado por humanos, una trayectoria de referencia y un verificador de estado terminal. La evaluación de 15 agentes avanzados revela que la resolución robusta de tareas espaciales sigue siendo un desafío: el modelo más fuerte, GPT-5, alcanza una tasa de éxito de tareas (TSR) promedio de solo el 17,4%, mientras que el modelo líder de código abierto, Qwen-3.5, alcanza el 14,1%. Un análisis adicional expone un claro desajuste entre el éxito de la tarea y la eficiencia de ejecución, junto con variaciones sustanciales de rendimiento específicas del dominio. Estos cuellos de botella en la exploración activa y la planificación a largo plazo posicionan a SpatialWorld como un banco de pruebas riguroso para futuros agentes espaciales.

English

Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.