S-Agent: Ruimtelijk gereedschapsgebruik ontlokt redeneren voor ruimtelijke intelligentie

Samenvatting

Ruimtelijke intelligentie in de echte wereld vereist redeneren over een continue en evoluerende 3D-wereld, maar bestaande VLM's en tool-verrijkte agenten blijven grotendeels gebonden aan statische, toestandloze inferentie op basis van geïsoleerde visuele waarnemingen. We introduceren \textsc{S-Agent}, een ruimtelijk tool-gebruikend agentisch paradigma voor het begrijpen en redeneren over continue multi-view beelden en video's. Door ruimtelijk redeneren te formuleren als spatio-temporele evidentieaccumulatie in plaats van geïsoleerde frame-niveau voorspelling, hervormt S-Agent ruimtelijke perceptie naar scènegecentreerd begrip, verder reikend dan framegecentreerde herkenning. Specifiek stelt S-Agent de VLM voor als een semantische planner die beslist welk bewijs nodig is, terwijl een hiërarchie van ruimtelijke tools en experts objecten in 2D grondt, ze opheft naar 3D geometrisch bewijs, en dit bewijs aggregeert tot hoog-niveau ruimtelijke kennis (bijv. tellen, meten, oriëntatie en relatieve positie). Daarnaast maakt een temporeel geheugenmechanisme, inclusief Scene Memory voor het onderhouden van de evoluerende scènetoestand en Agent Memory voor het accumuleren van redeneercontext, integratie van bewijs over frames en redeneerstappen mogelijk. Uitgebreide experimenten op multi-view en video ruimtelijke redeneerbenchmarks tonen aan dat S-Agent zowel open-source als closed-source VLM's consequent verbetert op een training-vrije manier. Naast inferentie-tijd augmentatie levert supervised fine-tuning (SFT) op S-Agent-gegenereerde ruimtelijke trajecten S-300K S-Agent-8B op, een compacte ruimtelijke agent die aanzienlijk beter presteert dan vergelijkbare schaalbare baselines (bijv. Qwen3-VL-8B) en vergelijkbaar presteert met geavanceerde closed-source modellen (bijv. GPT-5.4 en Gemini 3).

English

Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textsc{S-Agent}, a spatial tool-use agentic paradigm for understanding and reasoning over continuous multi-view images and videos. By formulating spatial reasoning as spatio-temporal evidence accumulation rather than isolated frame-level prediction, S-Agent reshapes spatial perception into scene-centric understanding beyond frame-centric recognition. Specifically, S-Agent casts the VLM as a semantic planner that decides what evidence is needed, while a hierarchy of spatial tools and experts grounds objects in 2D, lifts them into 3D geometric evidence, and aggregates this evidence into high-level spatial knowledge (e.g., counting, measurement, orientation, and relative position). Additionally, a temporal memory mechanism, including Scene Memory for maintaining the evolving scene state and Agent Memory for accumulating reasoning context, enables evidence integration across frames and reasoning steps. Comprehensive experiments on multi-view and video spatial reasoning benchmarks show that S-Agent consistently improves both open-source and closed-source VLMs in a training-free manner. Beyond inference-time augmentation, supervised fine-tuning (SFT) on S-Agent-generated spatial trajectories S-300K yields S-Agent-8B, a compact spatial agent that significantly surpasses similar-scale baselines (e.g., Qwen3-VL-8B) and performs comparably to advanced closed-source models (e.g., GPT-5.4 and Gemini 3).