S-Agent : L'utilisation d'outils spatiaux suscite le raisonnement pour l'intelligence spatiale

Résumé

L’intelligence spatiale dans le monde réel nécessite un raisonnement sur un environnement 3D continu et évolutif, pourtant les VLM existants et les agents augmentés d’outils restent largement cantonnés à une inférence statique et sans état à partir d’observations visuelles isolées. Nous introduisons \textsc{S-Agent}, un paradigme agentiel utilisant des outils spatiaux pour comprendre et raisonner sur des images multi-vues et des vidéos continues. En formulant le raisonnement spatial comme une accumulation spatio-temporelle de preuves plutôt qu’une prédiction isolée au niveau de l’image, \textsc{S-Agent} transforme la perception spatiale en une compréhension centrée sur la scène, dépassant la reconnaissance centrée sur l’image. Plus précisément, \textsc{S-Agent} fait du VLM un planificateur sémantique qui décide des preuves nécessaires, tandis qu’une hiérarchie d’outils et d’experts spatiaux ancre les objets en 2D, les élève en preuves géométriques 3D et agrège ces preuves en connaissances spatiales de haut niveau (par exemple, comptage, mesure, orientation et position relative). De plus, un mécanisme de mémoire temporelle, incluant la Mémoire de Scène pour maintenir l’état évolutif de la scène et la Mémoire d’Agent pour accumuler le contexte de raisonnement, permet l’intégration des preuves entre les images et les étapes de raisonnement. Des expériences approfondies sur des références de raisonnement spatial multi-vues et vidéo montrent que \textsc{S-Agent} améliore systématiquement les VLM open-source et closed-source de manière non supervisée. Au-delà de l’augmentation au moment de l’inférence, le fine-tuning supervisé (SFT) sur les trajectoires spatiales S-300K générées par \textsc{S-Agent} produit \textsc{S-Agent-8B}, un agent spatial compact qui surpasse significativement les références d’échelle similaire (par exemple, Qwen3-VL-8B) et atteint des performances comparables aux modèles propriétaires avancés (par exemple, GPT-5.4 et Gemini 3).

English

Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textsc{S-Agent}, a spatial tool-use agentic paradigm for understanding and reasoning over continuous multi-view images and videos. By formulating spatial reasoning as spatio-temporal evidence accumulation rather than isolated frame-level prediction, S-Agent reshapes spatial perception into scene-centric understanding beyond frame-centric recognition. Specifically, S-Agent casts the VLM as a semantic planner that decides what evidence is needed, while a hierarchy of spatial tools and experts grounds objects in 2D, lifts them into 3D geometric evidence, and aggregates this evidence into high-level spatial knowledge (e.g., counting, measurement, orientation, and relative position). Additionally, a temporal memory mechanism, including Scene Memory for maintaining the evolving scene state and Agent Memory for accumulating reasoning context, enables evidence integration across frames and reasoning steps. Comprehensive experiments on multi-view and video spatial reasoning benchmarks show that S-Agent consistently improves both open-source and closed-source VLMs in a training-free manner. Beyond inference-time augmentation, supervised fine-tuning (SFT) on S-Agent-generated spatial trajectories S-300K yields S-Agent-8B, a compact spatial agent that significantly surpasses similar-scale baselines (e.g., Qwen3-VL-8B) and performs comparably to advanced closed-source models (e.g., GPT-5.4 and Gemini 3).