SpatialAct: Onderzoek naar ruimtelijke redeneer-naar-actie vermogens van VLM-agenten in 3D-scènes

Samenvatting

Mensen kunnen moeiteloos ruimtelijke indelingen waarnemen, cognitieve representaties vormen, redeneren over ruimtelijke relaties en dergelijke redeneringen omzetten in acties in alledaagse 3D-omgevingen. Hoewel recente visie-taalmodel (VLM) veelbelovende prestaties hebben laten zien op observatie-afhankelijke ruimtelijke perceptie- en redeneertaken, blijft het onduidelijk of ze coherent ruimtelijk begrip kunnen opbouwen, ernaar kunnen handelen en hun acties kunnen verfijnen via meerstapsfeedback. Om dit probleem te bestuderen, introduceren we SpatialAct, een op een simulator gebaseerde benchmark voor het onderzoeken van actie-geconditioneerd ruimtelijk redeneren in 3D-scènes. Uitgaande van de meest uitdagende setting, Meerstaps Interactieve Verfijning, ontwerpen we verder de opgesplitste tegenhanger, Enkelstaps Foutdetectie en Correctie, samen met vijf fundamentele ruimtelijke vermogenstaken om de onderliggende oorzaken van modelfouten te diagnosticeren. Experimenten onthullen een duidelijke redeneren-actie kloof: huidige VLM's kunnen goed presteren op geïsoleerde ruimtelijke redeneertaken, maar hebben moeite om coherente ruimtelijke overtuigingen te behouden en betrouwbare acties te produceren tijdens meerstapsfeedback, waarbij ze aanzienlijk slechter presteren dan mensen. Deze resultaten suggereren dat huidige VLM-agenten nog steeds robuuste ruimtelijke toestandsvolging missen onder door acties geïnduceerde omgevingsveranderingen, zelfs wanneer laagniveaucontrole wordt geabstraheerd.

English

Humans can effortlessly perceive spatial layouts, form cognitive representations, reason about spatial relations, and translate such reasoning into actions in everyday 3D environments. Although recent vision-language models (VLMs) have shown promising performance on observation-conditioned spatial perception and reasoning tasks, it remains unclear whether they can build coherent spatial understanding, act upon it, and refine their actions through multi-turn feedback. To study this problem, we introduce SpatialAct, a simulator-grounded benchmark for probing action-conditioned spatial reasoning in 3D scenes. Starting from the most challenging setting, Multi-turn Interactive Refinement, we further design its decomposed counterpart, Single-step Error Detection and Fix, together with five fundamental spatial ability tasks to diagnose the underlying causes of model failures. Experiments reveal a clear reasoning-to-action gap: current VLMs can perform well on isolated spatial reasoning tasks, but struggle to maintain coherent spatial beliefs and produce reliable actions during multi-turn feedback, substantially underperforming humans. These results suggest that current VLM agents still lack robust spatial state tracking under action-induced environment changes, even when low-level control is abstracted away.