SpatialWorld: Avaliação do Raciocínio Espacial Interativo de Agentes Multimodais em Tarefas do Mundo Real

Resumo

O raciocínio espacial é uma capacidade fundamental para que modelos de linguagem de grande escala multimodais (MLLMs) percebam e atuem no mundo físico. No entanto, os benchmarks existentes baseiam-se predominantemente em avaliação passiva (ex.: VQA estático) ou em pipelines específicos de simuladores, falhando em avaliar a compreensão espacial interativa geral. Apresentamos o SpatialWorld, um benchmark unificado projetado especificamente para avaliar a compreensão espacial interativa de agentes multimodais em tarefas complexas do mundo real. Integrando oito backends de simulação heterogêneos sob um protocolo compartilhado e independente de simulador, o SpatialWorld conta com 760 tarefas anotadas por humanos em diversos domínios (ex.: rotinas domésticas, viagens, colaboração social). Os agentes devem resolver tarefas sob observabilidade parcial apenas visual, coletando ativamente evidências visuais egocêntricas e expressando decisões por meio de uma interface de ação unificada baseada em texto e nativa para MLLMs. Para uma avaliação confiável, cada tarefa inclui um estado inicial validado por humanos, uma trajetória de referência e um verificador de estado terminal. A avaliação de 15 agentes avançados revela que a resolução robusta de tarefas espaciais continua desafiadora: o modelo mais forte, GPT-5, atinge uma taxa média de sucesso de tarefas (TSR) de apenas 17,4%, enquanto o principal modelo de código aberto, Qwen-3.5, alcança 14,1%. Análises adicionais expõem um claro descompasso entre o sucesso da tarefa e a eficiência de execução, juntamente com variações substanciais de desempenho específicas de domínio. Esses gargalos em exploração ativa e planejamento de longo horizonte posicionam o SpatialWorld como um ambiente de teste rigoroso para futuros agentes espaciais.

English

Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.