SpatialClaw: Herziening van de actie-interface voor agentisch ruimtelijk redeneren

Samenvatting

Ruimtelijk redeneren, het vermogen om te bepalen waar objecten zich bevinden, hoe ze zich tot elkaar verhouden en hoe ze bewegen in 3D, blijft een fundamentele uitdaging voor visie-taalmodelen (VLMs). Hulpmiddel-verrijkte agenten proberen dit aan te pakken door VLMs te voorzien van gespecialiseerde perceptiemodules, maar hun effectiviteit wordt begrensd door de actie-interface waarmee die hulpmiddelen worden aangeroepen. In dit werk bestuderen we hoe het ontwerp van deze interface het vermogen van de agent voor open-einde ruimtelijk redeneren vormgeeft. Bestaande ruimtelijke agenten gebruiken ofwel een eenmalige code-uitvoering, die zich vastlegt op een volledige analysestrategie voordat enig tussentijds resultaat wordt waargenomen, of ze vertrouwen op een gestructureerde hulpmiddel-aanroepinterface die vaak minder flexibiliteit biedt voor het vrij combineren van operaties of het aanpassen van de analyse aan elke taak. Beide ontwerpen bieden beperkte flexibiliteit voor open-einde, complex 3D/4D ruimtelijk redeneren. Daarom stellen we SpatialClaw voor, een trainingsvrij raamwerk voor ruimtelijk redeneren dat code als actie-interface gebruikt. SpatialClaw houdt een stateful Python-kernel bij die vooraf is geladen met invoerframes en een reeks perceptie- en geometrische primitieven, waardoor een VLM-ondersteunde agent per stap één uitvoerbare cel kan schrijven, geconditioneerd op alle eerdere uitvoer, wat de agent in staat stelt om flexibel perceptieresultaten te combineren en te manipuleren en zijn analyse aan te passen aan zowel tussentijdse tekst- en visuele waarnemingen als de eisen van elk probleem. Geëvalueerd over 20 ruimtelijke redeneerbenchmarks die een breed scala aan statische en dynamische 3D/4D ruimtelijke redeneertaken bestrijken, behaalt SpatialClaw een gemiddelde nauwkeurigheid van 59,9%, waarmee het de recente ruimtelijke agent met +11,2 punten overtreft, met consistente verbeteringen over zes VLM-backbones van twee modelfamilies zonder enige benchmark- of modelspecifieke aanpassing.

English

Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by augmenting VLMs with specialist perception modules, yet their effectiveness is bounded by the action interface through which those tools are invoked. In this work, we study how the design of this interface shapes the agent's capacity for open-ended spatial reasoning. Existing spatial agents either employ single-pass code execution, which commits to a full analysis strategy before any intermediate result is observed, or rely on a structured tool-call interface that often offers less flexibility for freely composing operations or tailoring the analysis to each task. Both designs offer limited flexibility for open-ended, complex 3D/4D spatial reasoning. We therefore propose SpatialClaw, a training-free framework for spatial reasoning that adopts code as the action interface. SpatialClaw maintains a stateful Python kernel pre-loaded with input frames and a suite of perception and geometry primitives, letting a VLM-backed agent write one executable cell per step conditioned on all prior outputs, enabling the agent to flexibly compose and manipulate perception results and adapt its analysis to both intermediate text and visual observations and the demands of each problem. Evaluated across 20 spatial reasoning benchmarks spanning a broad range of static and dynamic 3D/4D spatial reasoning tasks, SpatialClaw achieves 59.9% average accuracy, outperforming the recent spatial agent by +11.2 points, with consistent gains across six VLM backbones from two model families without any benchmark- or model-specific adaptation.