S-Agent: Räumliche Werkzeugnutzung ruft Reasoning für räumliche Intelligenz hervor

Zusammenfassung

Räumliche Intelligenz in der realen Welt erfordert das Denken über eine kontinuierliche und sich entwickelnde 3D-Welt, doch bestehende VLMs und werkzeugverstärkte Agenten bleiben weitgehend an statische, zustandslose Inferenz aus isolierten visuellen Beobachtungen gebunden. Wir führen S-Agent ein, ein räumliches werkzeugnutzendes Agentenparadigma zum Verständnis und zur Schlussfolgerung über kontinuierliche Multi-View-Bilder und Videos. Indem es räumliches Denken als raum-zeitliche Evidenzakkumulation statt als isolierte Einzelbildvorhersage formuliert, formt S-Agent die räumliche Wahrnehmung in ein szenenzentriertes Verständnis um, das über die einzelbildzentrierte Erkennung hinausgeht. Insbesondere betrachtet S-Agent das VLM als semantischen Planer, der entscheidet, welche Evidenz benötigt wird, während eine Hierarchie räumlicher Werkzeuge und Experten Objekte in 2D verankert, sie in 3D-geometrische Evidenz überführt und diese Evidenz zu hochrangigem räumlichem Wissen (z. B. Zählen, Messung, Orientierung und relative Position) aggregiert. Darüber hinaus ermöglicht ein zeitlicher Gedächtnismechanismus, der Szenengedächtnis zur Beibehaltung des sich entwickelnden Szenenzustands und Agentengedächtnis zur Ansammlung von Reasoning-Kontext umfasst, die Evidenzintegration über Einzelbilder und Reasoning-Schritte hinweg. Umfassende Experimente auf Multi-View- und Video-Räumliches-Denken-Benchmarks zeigen, dass S-Agent sowohl Open-Source- als auch Closed-Source-VLMs auf trainingsfreie Weise konsistent verbessert. Über die Inferenzzeit-Augmentierung hinaus ergibt überwachtes Feintuning (SFT) auf von S-Agent generierten räumlichen Trajektorien S-300K den S-Agent-8B, einen kompakten räumlichen Agenten, der ähnlich skalierte Basislinien (z. B. Qwen3-VL-8B) deutlich übertrifft und vergleichbar mit fortgeschrittenen Closed-Source-Modellen (z. B. GPT-5.4 und Gemini 3) abschneidet.

English

Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textsc{S-Agent}, a spatial tool-use agentic paradigm for understanding and reasoning over continuous multi-view images and videos. By formulating spatial reasoning as spatio-temporal evidence accumulation rather than isolated frame-level prediction, S-Agent reshapes spatial perception into scene-centric understanding beyond frame-centric recognition. Specifically, S-Agent casts the VLM as a semantic planner that decides what evidence is needed, while a hierarchy of spatial tools and experts grounds objects in 2D, lifts them into 3D geometric evidence, and aggregates this evidence into high-level spatial knowledge (e.g., counting, measurement, orientation, and relative position). Additionally, a temporal memory mechanism, including Scene Memory for maintaining the evolving scene state and Agent Memory for accumulating reasoning context, enables evidence integration across frames and reasoning steps. Comprehensive experiments on multi-view and video spatial reasoning benchmarks show that S-Agent consistently improves both open-source and closed-source VLMs in a training-free manner. Beyond inference-time augmentation, supervised fine-tuning (SFT) on S-Agent-generated spatial trajectories S-300K yields S-Agent-8B, a compact spatial agent that significantly surpasses similar-scale baselines (e.g., Qwen3-VL-8B) and performs comparably to advanced closed-source models (e.g., GPT-5.4 and Gemini 3).