SpatialWorld: Бенчмаркинг интерактивного пространственного рассуждения мультимодальных агентов в реальных задачах

Аннотация

Пространственное рассуждение является фундаментальной способностью мультимодальных больших языковых моделей (MLLM) для восприятия и взаимодействия с физическим миром. Однако существующие бенчмарки преимущественно опираются на пассивную оценку (например, статический VQA) или симулятор-специфические конвейеры, что не позволяет оценить общее интерактивное пространственное понимание. Мы представляем SpatialWorld — унифицированный бенчмарк, специально разработанный для оценки интерактивного пространственного понимания мультимодальных агентов в сложных задачах реального мира. Интегрируя восемь гетерогенных симуляционных бэкендов под единым протоколом, не зависящим от симулятора, SpatialWorld содержит 760 задач с аннотациями человека в различных доменах (например, бытовые рутины, путешествия, социальное сотрудничество). Агенты должны решать задачи в условиях частичной наблюдаемости только на основе зрения, активно собирая эгоцентрические визуальные свидетельства и выражая решения через единый текстовый интерфейс действий, естественный для MLLM. Для надежной оценки каждая задача включает начальное состояние, верифицированное человеком, эталонную траекторию и верификатор конечного состояния. Оценка 15 продвинутых агентов показывает, что надежное решение пространственных задач остается сложной задачей: сильнейшая модель GPT-5 достигает среднего уровня успешности задач (TSR) лишь 17,4%, в то время как ведущая модель с открытым исходным кодом Qwen-3.5 — 14,1%. Дальнейший анализ выявляет явное несоответствие между успешностью выполнения задач и эффективностью их исполнения, а также значительные вариации производительности в зависимости от предметной области. Эти узкие места в активном исследовании и долгосрочном планировании позиционируют SpatialWorld как строгий испытательный полигон для будущих пространственных агентов.

English

Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.