SpatialWorld : évaluation comparative du raisonnement spatial interactif des agents multimodaux dans des tâches du monde réel

Résumé

Le raisonnement spatial est une capacité fondamentale pour les modèles de langage multimodaux de grande taille (MLLMs) afin de percevoir et d’opérer dans le monde physique. Cependant, les benchmarks existants reposent principalement sur une évaluation passive (p. ex., VQA statique) ou sur des pipelines spécifiques aux simulateurs, échouant à évaluer une compréhension spatiale interactive générale. Nous introduisons SpatialWorld, un benchmark unifié conçu spécifiquement pour évaluer la compréhension spatiale interactive des agents multimodaux dans des tâches complexes du monde réel. Intégrant huit backends de simulation hétérogènes sous un protocole partagé et agnostique vis-à-vis du simulateur, SpatialWorld propose 760 tâches annotées par des humains dans divers domaines (p. ex., routines domestiques, voyages, collaboration sociale). Les agents doivent résoudre des tâches sous observabilité partielle uniquement visuelle, en collectant activement des preuves visuelles égocentriques et en exprimant leurs décisions via une interface d'action textuelle unifiée et native aux MLLMs. Pour une évaluation fiable, chaque tâche inclut un état initial validé par des humains, une trajectoire de référence et un vérificateur d'état terminal. L'évaluation de 15 agents avancés révèle que la résolution robuste de tâches spatiales reste difficile : le modèle le plus performant, GPT-5, atteint un taux de succès moyen des tâches (TSR) de seulement 17,4 %, tandis que le principal modèle open-source, Qwen-3.5, atteint 14,1 %. Des analyses supplémentaires révèlent un décalage clair entre le succès des tâches et l'efficacité d'exécution, ainsi que des variations de performance substantielles selon les domaines. Ces goulets d'étranglement dans l'exploration active et la planification à long horizon positionnent SpatialWorld comme un banc d'essai rigoureux pour les futurs agents spatiaux.

English

Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.