SpatialClaw: Переосмысление интерфейса действий для агентного пространственного рассуждения

Аннотация

Пространственное рассуждение — способность определять местоположение объектов, их взаимосвязи и движение в трёхмерном пространстве — остаётся фундаментальной проблемой для моделей зрения и языка (VLM). Агенты с инструментальным дополнением пытаются решить эту задачу, расширяя VLM специализированными модулями восприятия, однако их эффективность ограничена интерфейсом действий, через который вызываются эти инструменты. В данной работе мы исследуем, как проектирование этого интерфейса влияет на способность агента к открытому пространственному рассуждению. Существующие пространственные агенты либо используют однопроходное выполнение кода, что предполагает полную стратегию анализа до наблюдения любого промежуточного результата, либо полагаются на структурированный интерфейс вызова инструментов, который часто предоставляет меньше гибкости для свободного комбинирования операций или адаптации анализа под каждую задачу. Оба подхода обеспечивают ограниченную гибкость для открытого, сложного 3D/4D пространственного рассуждения. Поэтому мы предлагаем SpatialClaw — фреймворк без обучения для пространственного рассуждения, использующий код в качестве интерфейса действий. SpatialClaw поддерживает долговременное ядро Python, предварительно загруженное входными кадрами и набором примитивов восприятия и геометрии, позволяя агенту на основе VLM записывать по одному исполняемому блоку кода за шаг с учётом всех предыдущих результатов. Это даёт агенту возможность гибко комбинировать и манипулировать результатами восприятия, адаптируя свой анализ как к промежуточным текстовым и визуальным наблюдениям, так и к требованиям каждой задачи. Оцененный на 20 бенчмарках пространственного рассуждения, охватывающих широкий спектр статических и динамических 3D/4D задач, SpatialClaw достиг средней точности 59,9%, превзойдя недавнего пространственного агента на +11,2 процентных пункта, с устойчивым улучшением на шести базовых архитектурах VLM из двух семейств моделей без какой-либо адаптации под конкретный бенчмарк или модель.

English

Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by augmenting VLMs with specialist perception modules, yet their effectiveness is bounded by the action interface through which those tools are invoked. In this work, we study how the design of this interface shapes the agent's capacity for open-ended spatial reasoning. Existing spatial agents either employ single-pass code execution, which commits to a full analysis strategy before any intermediate result is observed, or rely on a structured tool-call interface that often offers less flexibility for freely composing operations or tailoring the analysis to each task. Both designs offer limited flexibility for open-ended, complex 3D/4D spatial reasoning. We therefore propose SpatialClaw, a training-free framework for spatial reasoning that adopts code as the action interface. SpatialClaw maintains a stateful Python kernel pre-loaded with input frames and a suite of perception and geometry primitives, letting a VLM-backed agent write one executable cell per step conditioned on all prior outputs, enabling the agent to flexibly compose and manipulate perception results and adapt its analysis to both intermediate text and visual observations and the demands of each problem. Evaluated across 20 spatial reasoning benchmarks spanning a broad range of static and dynamic 3D/4D spatial reasoning tasks, SpatialClaw achieves 59.9% average accuracy, outperforming the recent spatial agent by +11.2 points, with consistent gains across six VLM backbones from two model families without any benchmark- or model-specific adaptation.