S-Agent: Использование пространственных инструментов вызывает рассуждение для пространственного интеллекта

Аннотация

Реальная пространственная интеллектуальность требует рассуждений о непрерывном и изменяющемся трехмерном мире, однако существующие VLM и агенты, расширенные инструментами, в значительной степени остаются привязанными к статическому, не имеющему состояния выводу на основе изолированных визуальных наблюдений. Мы представляем \textsc{S-Agent} — парадигму агента пространственного использования инструментов для понимания и рассуждения о непрерывных многовидовых изображениях и видео. Формулируя пространственное рассуждение как накопление пространственно-временных свидетельств, а не изолированное покадровое предсказание, S-Agent переосмысливает пространственное восприятие как понимание, центрированное на сцене, выходящее за рамки покадрового распознавания. В частности, S-Agent представляет VLM как семантического планировщика, который решает, какие свидетельства необходимы, в то время как иерархия пространственных инструментов и экспертов локализует объекты в 2D, поднимает их в 3D-геометрические свидетельства и агрегирует эти свидетельства в высокоуровневые пространственные знания (например, подсчет, измерение, ориентация и относительное положение). Кроме того, механизм временной памяти, включающий Память сцены для поддержания изменяющегося состояния сцены и Память агента для накопления контекста рассуждений, обеспечивает интеграцию свидетельств между кадрами и шагами рассуждений. Всесторонние эксперименты на эталонах пространственного рассуждения по многовидовым изображениям и видео показывают, что S-Agent последовательно улучшает как открытые, так и закрытые VLM без необходимости обучения. Помимо расширения во время вывода, контролируемая тонкая настройка (SFT) на сгенерированных S-Agent пространственных траекториях S-300K дает S-Agent-8B — компактный пространственный агент, который значительно превосходит базовые модели аналогичного масштаба (например, Qwen3-VL-8B) и показывает результаты, сопоставимые с продвинутыми закрытыми моделями (например, GPT-5.4 и Gemini 3).

English

Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textsc{S-Agent}, a spatial tool-use agentic paradigm for understanding and reasoning over continuous multi-view images and videos. By formulating spatial reasoning as spatio-temporal evidence accumulation rather than isolated frame-level prediction, S-Agent reshapes spatial perception into scene-centric understanding beyond frame-centric recognition. Specifically, S-Agent casts the VLM as a semantic planner that decides what evidence is needed, while a hierarchy of spatial tools and experts grounds objects in 2D, lifts them into 3D geometric evidence, and aggregates this evidence into high-level spatial knowledge (e.g., counting, measurement, orientation, and relative position). Additionally, a temporal memory mechanism, including Scene Memory for maintaining the evolving scene state and Agent Memory for accumulating reasoning context, enables evidence integration across frames and reasoning steps. Comprehensive experiments on multi-view and video spatial reasoning benchmarks show that S-Agent consistently improves both open-source and closed-source VLMs in a training-free manner. Beyond inference-time augmentation, supervised fine-tuning (SFT) on S-Agent-generated spatial trajectories S-300K yields S-Agent-8B, a compact spatial agent that significantly surpasses similar-scale baselines (e.g., Qwen3-VL-8B) and performs comparably to advanced closed-source models (e.g., GPT-5.4 and Gemini 3).