SpatialWorld: Het benchmarken van interactief ruimtelijk redeneren van multimodale agenten in realistische taken

Samenvatting

Ruimtelijk redeneren is een fundamentele capaciteit voor multimodale grote taalmodellen (MLLM's) om de fysieke wereld waar te nemen en erin te opereren. Bestaande benchmarks steunen echter voornamelijk op passieve evaluatie (bijv. statische VQA) of simulatorspecifieke pijplijnen, waardoor algemeen interactief ruimtelijk begrip niet wordt beoordeeld. We introduceren SpatialWorld, een uniforme benchmark die specifiek is ontworpen voor het evalueren van het interactieve ruimtelijke begrip van multimodale agenten in complexe realistische taken. Door acht heterogene simulatie-backends te integreren onder een gedeeld, simulatoronafhankelijk protocol, omvat SpatialWorld 760 door mensen geannoteerde taken in diverse domeinen (bijv. huishoudelijke routines, reizen, sociale samenwerking). Agenten moeten taken oplossen onder alleen-visuele gedeeltelijke waarneembaarheid, actief egocentrisch visueel bewijs verzamelen en beslissingen uiten via een uniforme, tekstgebaseerde actie-interface die native is voor MLLM's. Voor een betrouwbare evaluatie bevat elke taak een door mensen gevalideerde begintoestand, een referentietraject en een eindtoestandverificateur. Evaluatie van 15 geavanceerde agenten laat zien dat robuust ruimtelijk taakoplossen een uitdaging blijft: het sterkste model, GPT-5, behaalt een gemiddeld taaksuccespercentage (TSR) van slechts 17,4%, terwijl het toonaangevende opensource-model, Qwen-3.5, 14,1% bereikt. Verdere analyse onthult een duidelijke mismatch tussen taaksucces en uitvoeringsefficiëntie, naast aanzienlijke domeinspecifieke prestatievariaties. Deze knelpunten in actieve exploratie en lange-termijnplanning positioneren SpatialWorld als een rigoureuze testomgeving voor toekomstige ruimtelijke agenten.

English

Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.