ChatPaper.aiChatPaper

SpatialWorld: Avaliação do Raciocínio Espacial Interativo de Agentes Multimodais em Tarefas do Mundo Real

SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

June 8, 2026
Autores: Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong
cs.AI

Resumo

O raciocínio espacial é uma capacidade fundamental para que modelos de linguagem de grande escala multimodais (MLLMs) percebam e atuem no mundo físico. No entanto, os benchmarks existentes baseiam-se predominantemente em avaliação passiva (ex.: VQA estático) ou em pipelines específicos de simuladores, falhando em avaliar a compreensão espacial interativa geral. Apresentamos o SpatialWorld, um benchmark unificado projetado especificamente para avaliar a compreensão espacial interativa de agentes multimodais em tarefas complexas do mundo real. Integrando oito backends de simulação heterogêneos sob um protocolo compartilhado e independente de simulador, o SpatialWorld conta com 760 tarefas anotadas por humanos em diversos domínios (ex.: rotinas domésticas, viagens, colaboração social). Os agentes devem resolver tarefas sob observabilidade parcial apenas visual, coletando ativamente evidências visuais egocêntricas e expressando decisões por meio de uma interface de ação unificada baseada em texto e nativa para MLLMs. Para uma avaliação confiável, cada tarefa inclui um estado inicial validado por humanos, uma trajetória de referência e um verificador de estado terminal. A avaliação de 15 agentes avançados revela que a resolução robusta de tarefas espaciais continua desafiadora: o modelo mais forte, GPT-5, atinge uma taxa média de sucesso de tarefas (TSR) de apenas 17,4%, enquanto o principal modelo de código aberto, Qwen-3.5, alcança 14,1%. Análises adicionais expõem um claro descompasso entre o sucesso da tarefa e a eficiência de execução, juntamente com variações substanciais de desempenho específicas de domínio. Esses gargalos em exploração ativa e planejamento de longo horizonte posicionam o SpatialWorld como um ambiente de teste rigoroso para futuros agentes espaciais.
English
Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.