SpatialClaw: Repensando la Interfaz de Acción para el Razonamiento Espacial Agéntico

Resumen

El razonamiento espacial, la capacidad de determinar dónde están los objetos, cómo se relacionan y cómo se mueven en 3D, sigue siendo un desafío fundamental para los modelos de visión y lenguaje (VLMs). Los agentes aumentados con herramientas intentan abordar esto aumentando los VLMs con módulos de percepción especializados, pero su efectividad está limitada por la interfaz de acción a través de la cual se invocan esas herramientas. En este trabajo, estudiamos cómo el diseño de esta interfaz moldea la capacidad del agente para el razonamiento espacial de tipo abierto. Los agentes espaciales existentes emplean una ejecución de código de una sola pasada, que se compromete con una estrategia de análisis completa antes de observar cualquier resultado intermedio, o dependen de una interfaz estructurada de llamada a herramientas que a menudo ofrece menos flexibilidad para componer operaciones libremente o adaptar el análisis a cada tarea. Ambos diseños ofrecen una flexibilidad limitada para el razonamiento espacial de tipo abierto y complejo en 3D/4D. Por lo tanto, proponemos SpatialClaw, un marco sin entrenamiento para el razonamiento espacial que adopta el código como interfaz de acción. SpatialClaw mantiene un kernel de Python con estado, precargado con fotogramas de entrada y un conjunto de primitivas de percepción y geometría, lo que permite que un agente respaldado por VLM escriba una celda ejecutable por paso condicionada a todas las salidas anteriores, permitiendo al agente componer y manipular de forma flexible los resultados de percepción y adaptar su análisis tanto a las observaciones intermedias textuales y visuales como a las demandas de cada problema. Evaluado en 20 puntos de referencia de razonamiento espacial que abarcan una amplia gama de tareas de razonamiento espacial estáticas y dinámicas en 3D/4D, SpatialClaw alcanza una precisión promedio del 59.9%, superando al agente espacial reciente en +11.2 puntos, con ganancias consistentes en seis modelos base de VLM de dos familias de modelos sin ninguna adaptación específica de punto de referencia o de modelo.

English

Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by augmenting VLMs with specialist perception modules, yet their effectiveness is bounded by the action interface through which those tools are invoked. In this work, we study how the design of this interface shapes the agent's capacity for open-ended spatial reasoning. Existing spatial agents either employ single-pass code execution, which commits to a full analysis strategy before any intermediate result is observed, or rely on a structured tool-call interface that often offers less flexibility for freely composing operations or tailoring the analysis to each task. Both designs offer limited flexibility for open-ended, complex 3D/4D spatial reasoning. We therefore propose SpatialClaw, a training-free framework for spatial reasoning that adopts code as the action interface. SpatialClaw maintains a stateful Python kernel pre-loaded with input frames and a suite of perception and geometry primitives, letting a VLM-backed agent write one executable cell per step conditioned on all prior outputs, enabling the agent to flexibly compose and manipulate perception results and adapt its analysis to both intermediate text and visual observations and the demands of each problem. Evaluated across 20 spatial reasoning benchmarks spanning a broad range of static and dynamic 3D/4D spatial reasoning tasks, SpatialClaw achieves 59.9% average accuracy, outperforming the recent spatial agent by +11.2 points, with consistent gains across six VLM backbones from two model families without any benchmark- or model-specific adaptation.