ChatPaper.aiChatPaper

SpatialWorld: Бенчмаркинг интерактивного пространственного рассуждения мультимодальных агентов в реальных задачах

SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

June 8, 2026
Авторы: Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong
cs.AI

Аннотация

Пространственное рассуждение является фундаментальной способностью мультимодальных больших языковых моделей (MLLM) для восприятия и взаимодействия с физическим миром. Однако существующие бенчмарки преимущественно опираются на пассивную оценку (например, статический VQA) или симулятор-специфические конвейеры, что не позволяет оценить общее интерактивное пространственное понимание. Мы представляем SpatialWorld — унифицированный бенчмарк, специально разработанный для оценки интерактивного пространственного понимания мультимодальных агентов в сложных задачах реального мира. Интегрируя восемь гетерогенных симуляционных бэкендов под единым протоколом, не зависящим от симулятора, SpatialWorld содержит 760 задач с аннотациями человека в различных доменах (например, бытовые рутины, путешествия, социальное сотрудничество). Агенты должны решать задачи в условиях частичной наблюдаемости только на основе зрения, активно собирая эгоцентрические визуальные свидетельства и выражая решения через единый текстовый интерфейс действий, естественный для MLLM. Для надежной оценки каждая задача включает начальное состояние, верифицированное человеком, эталонную траекторию и верификатор конечного состояния. Оценка 15 продвинутых агентов показывает, что надежное решение пространственных задач остается сложной задачей: сильнейшая модель GPT-5 достигает среднего уровня успешности задач (TSR) лишь 17,4%, в то время как ведущая модель с открытым исходным кодом Qwen-3.5 — 14,1%. Дальнейший анализ выявляет явное несоответствие между успешностью выполнения задач и эффективностью их исполнения, а также значительные вариации производительности в зависимости от предметной области. Эти узкие места в активном исследовании и долгосрочном планировании позиционируют SpatialWorld как строгий испытательный полигон для будущих пространственных агентов.
English
Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.