SpatialClaw: Repensando a Interface de Ação para Raciocínio Espacial de Agentes

Resumo

O raciocínio espacial, a capacidade de determinar onde os objetos estão, como se relacionam e como se movem em 3D, continua sendo um desafio fundamental para os modelos de visão-linguagem (MVLs). Agentes aumentados por ferramentas tentam resolver isso aumentando os MVLs com módulos especializados de percepção, mas sua eficácia é limitada pela interface de ação através da qual essas ferramentas são invocadas. Neste trabalho, estudamos como o design dessa interface molda a capacidade do agente para o raciocínio espacial de final aberto. Agentes espaciais existentes ou empregam execução de código de passagem única, que se compromete com uma estratégia de análise completa antes que qualquer resultado intermediário seja observado, ou dependem de uma interface de chamada de ferramenta estruturada que muitas vezes oferece menos flexibilidade para compor operações livremente ou adaptar a análise a cada tarefa. Ambos os designs oferecem flexibilidade limitada para raciocínio espacial 3D/4D complexo e de final aberto. Portanto, propomos o SpatialClaw, um framework livre de treinamento para raciocínio espacial que adota código como interface de ação. O SpatialClaw mantém um kernel Python com estado, pré-carregado com quadros de entrada e um conjunto de primitivas de percepção e geometria, permitindo que um agente baseado em MVL escreva uma célula executável por passo, condicionada a todas as saídas anteriores, capacitando o agente a compor e manipular resultados de percepção de forma flexível e adaptar sua análise tanto a observações textuais e visuais intermediárias quanto às demandas de cada problema. Avaliado em 20 benchmarks de raciocínio espacial abrangendo uma ampla gama de tarefas de raciocínio espacial 3D/4D estáticas e dinâmicas, o SpatialClaw alcança 59,9% de precisão média, superando o agente espacial recente em +11,2 pontos, com ganhos consistentes em seis MVLs de base de duas famílias de modelos, sem qualquer adaptação específica a benchmark ou modelo.

English

Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by augmenting VLMs with specialist perception modules, yet their effectiveness is bounded by the action interface through which those tools are invoked. In this work, we study how the design of this interface shapes the agent's capacity for open-ended spatial reasoning. Existing spatial agents either employ single-pass code execution, which commits to a full analysis strategy before any intermediate result is observed, or rely on a structured tool-call interface that often offers less flexibility for freely composing operations or tailoring the analysis to each task. Both designs offer limited flexibility for open-ended, complex 3D/4D spatial reasoning. We therefore propose SpatialClaw, a training-free framework for spatial reasoning that adopts code as the action interface. SpatialClaw maintains a stateful Python kernel pre-loaded with input frames and a suite of perception and geometry primitives, letting a VLM-backed agent write one executable cell per step conditioned on all prior outputs, enabling the agent to flexibly compose and manipulate perception results and adapt its analysis to both intermediate text and visual observations and the demands of each problem. Evaluated across 20 spatial reasoning benchmarks spanning a broad range of static and dynamic 3D/4D spatial reasoning tasks, SpatialClaw achieves 59.9% average accuracy, outperforming the recent spatial agent by +11.2 points, with consistent gains across six VLM backbones from two model families without any benchmark- or model-specific adaptation.