SpatialWorld: Benchmarking des interaktiven räumlichen Denkens von multimodalen Agenten in realen Aufgaben

Zusammenfassung

Räumliches Denken ist eine grundlegende Fähigkeit multimodaler großer Sprachmodelle (MLLMs), um die physische Welt wahrzunehmen und in ihr zu operieren. Bestehende Benchmarks beruhen jedoch überwiegend auf passiver Evaluierung (z. B. statischem VQA) oder simulatorspezifischen Pipelines und sind daher nicht in der Lage, allgemeines interaktives räumliches Verständnis zu bewerten. Wir stellen SpatialWorld vor, einen einheitlichen Benchmark, der speziell für die Bewertung des interaktiven räumlichen Verständnisses multimodaler Agenten in komplexen realen Aufgaben konzipiert wurde. SpatialWorld integriert acht heterogene Simulations-Backends unter einem gemeinsamen, simulatorunabhängigen Protokoll und umfasst 760 von Menschen annotierte Aufgaben aus verschiedenen Bereichen (z. B. Haushaltsroutinen, Reisen, soziale Zusammenarbeit). Die Agenten müssen Aufgaben unter ausschließlich visueller, partieller Beobachtbarkeit lösen, aktiv egozentrische visuelle Evidenz sammeln und Entscheidungen über eine einheitliche, textbasierte Aktionsschnittstelle treffen, die nativ für MLLMs geeignet ist. Zur zuverlässigen Evaluierung enthält jede Aufgabe einen von Menschen validierten Ausgangszustand, eine Referenztrajektorie und einen Endzustands-Verifizierer. Die Evaluierung von 15 fortschrittlichen Agenten zeigt, dass robustes räumliches Aufgabenlösen weiterhin eine Herausforderung darstellt: Das stärkste Modell, GPT-5, erreicht eine durchschnittliche Aufgabenerfolgsrate (TSR) von nur 17,4 %, während das führende Open-Source-Modell, Qwen-3.5, auf 14,1 % kommt. Weitere Analysen decken eine deutliche Diskrepanz zwischen Aufgabenerfolg und Ausführungseffizienz sowie erhebliche domänenspezifische Leistungsschwankungen auf. Diese Engpässe bei der aktiven Exploration und langfristigen Planung positionieren SpatialWorld als anspruchsvolles Testfeld für zukünftige räumliche Agenten.

English

Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.