SpatialClaw: Neudefinition der Aktionsschnittstelle für agentisches räumliches Denken

Zusammenfassung

Räumliches Denken – die Fähigkeit, zu bestimmen, wo sich Objekte befinden, wie sie zueinander in Beziehung stehen und wie sie sich im 3D-Raum bewegen – bleibt eine grundlegende Herausforderung für Sprach-Bild-Modelle (Vision-Language Models, VLMs). Werkzeugunterstützte Agenten versuchen, dies zu adressieren, indem sie VLMs mit spezialisierten Wahrnehmungsmodulen erweitern, doch ihre Effektivität wird durch die Aktionsschnittstelle begrenzt, über die diese Werkzeuge aufgerufen werden. In dieser Arbeit untersuchen wir, wie die Gestaltung dieser Schnittstelle die Fähigkeit des Agenten zum offenen räumlichen Denken prägt. Existierende räumliche Agenten setzen entweder auf eine einmalige Codeausführung, die sich vor der Beobachtung irgendeines Zwischenergebnisses auf eine vollständige Analysestrategie festlegt, oder auf eine strukturierte Werkzeugaufruf-Schnittstelle, die oft weniger Flexibilität für freies Kombinieren von Operationen oder eine an jede Aufgabe angepasste Analyse bietet. Beide Ansätze bieten nur begrenzte Flexibilität für offenes, komplexes 3D/4D-räumliches Denken. Daher schlagen wir SpatialClaw vor, ein trainingsfreies Framework für räumliches Denken, das Code als Aktionsschnittstelle nutzt. SpatialClaw unterhält einen zustandsbehafteten Python-Kernel, der mit Eingabebildern und einer Suite von Wahrnehmungs- und Geometrieprimitiven vorbelegt ist, sodass ein auf einem VLM basierender Agent pro Schritt eine ausführbare Zelle schreiben kann, die auf allen vorherigen Ausgaben aufbaut. Dadurch kann der Agent Wahrnehmungsergebnisse flexibel zusammensetzen und manipulieren und seine Analyse sowohl an zwischenzeitliche textuelle und visuelle Beobachtungen als auch an die Anforderungen jedes einzelnen Problems anpassen. Evaluiert auf 20 Benchmarks zum räumlichen Denken, die ein breites Spektrum statischer und dynamischer 3D/4D-räumlicher Denkaufgaben abdecken, erreicht SpatialClaw eine durchschnittliche Genauigkeit von 59,9 % und übertrifft den aktuellen räumlichen Agenten um +11,2 Prozentpunkte, mit durchgängigen Verbesserungen über sechs VLM-Grundmodelle aus zwei Modellfamilien hinweg, ohne benchmark- oder modellspezifische Anpassungen.

English

Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by augmenting VLMs with specialist perception modules, yet their effectiveness is bounded by the action interface through which those tools are invoked. In this work, we study how the design of this interface shapes the agent's capacity for open-ended spatial reasoning. Existing spatial agents either employ single-pass code execution, which commits to a full analysis strategy before any intermediate result is observed, or rely on a structured tool-call interface that often offers less flexibility for freely composing operations or tailoring the analysis to each task. Both designs offer limited flexibility for open-ended, complex 3D/4D spatial reasoning. We therefore propose SpatialClaw, a training-free framework for spatial reasoning that adopts code as the action interface. SpatialClaw maintains a stateful Python kernel pre-loaded with input frames and a suite of perception and geometry primitives, letting a VLM-backed agent write one executable cell per step conditioned on all prior outputs, enabling the agent to flexibly compose and manipulate perception results and adapt its analysis to both intermediate text and visual observations and the demands of each problem. Evaluated across 20 spatial reasoning benchmarks spanning a broad range of static and dynamic 3D/4D spatial reasoning tasks, SpatialClaw achieves 59.9% average accuracy, outperforming the recent spatial agent by +11.2 points, with consistent gains across six VLM backbones from two model families without any benchmark- or model-specific adaptation.