S-Agent: El uso de herramientas espaciales suscita razonamiento para la inteligencia espacial

Resumen

La inteligencia espacial en el mundo real requiere razonar sobre un mundo 3D continuo y en evolución, sin embargo, los VLMs y agentes aumentados con herramientas existentes siguen en gran medida limitados a inferencias estáticas y sin estado a partir de observaciones visuales aisladas. Presentamos \textsc{S-Agent}, un paradigma de agente espacial que utiliza herramientas para comprender y razonar sobre imágenes multivista y videos continuos. Al formular el razonamiento espacial como una acumulación de evidencia espacio-temporal en lugar de una predicción aislada a nivel de fotograma, S-Agent transforma la percepción espacial en una comprensión centrada en la escena más allá del reconocimiento centrado en el fotograma. Específicamente, S-Agent concibe el VLM como un planificador semántico que decide qué evidencia se necesita, mientras que una jerarquía de herramientas y expertos espaciales ancla objetos en 2D, los eleva a evidencia geométrica 3D y agrega esta evidencia en conocimiento espacial de alto nivel (por ejemplo, conteo, medición, orientación y posición relativa). Además, un mecanismo de memoria temporal, que incluye la Memoria de Escena para mantener el estado evolutivo de la escena y la Memoria del Agente para acumular el contexto de razonamiento, permite la integración de evidencia a través de fotogramas y pasos de razonamiento. Experimentos exhaustivos en puntos de referencia de razonamiento espacial multivista y en video muestran que S-Agent mejora consistentemente tanto VLMs de código abierto como de código cerrado sin necesidad de entrenamiento. Más allá del aumento en tiempo de inferencia, el ajuste fino supervisado (SFT) en las trayectorias espaciales generadas por S-Agent, S-300K, produce S-Agent-8B, un agente espacial compacto que supera significativamente a las líneas base de escala similar (por ejemplo, Qwen3-VL-8B) y se desempeña de manera comparable a modelos avanzados de código cerrado (por ejemplo, GPT-5.4 y Gemini 3).

English

Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textsc{S-Agent}, a spatial tool-use agentic paradigm for understanding and reasoning over continuous multi-view images and videos. By formulating spatial reasoning as spatio-temporal evidence accumulation rather than isolated frame-level prediction, S-Agent reshapes spatial perception into scene-centric understanding beyond frame-centric recognition. Specifically, S-Agent casts the VLM as a semantic planner that decides what evidence is needed, while a hierarchy of spatial tools and experts grounds objects in 2D, lifts them into 3D geometric evidence, and aggregates this evidence into high-level spatial knowledge (e.g., counting, measurement, orientation, and relative position). Additionally, a temporal memory mechanism, including Scene Memory for maintaining the evolving scene state and Agent Memory for accumulating reasoning context, enables evidence integration across frames and reasoning steps. Comprehensive experiments on multi-view and video spatial reasoning benchmarks show that S-Agent consistently improves both open-source and closed-source VLMs in a training-free manner. Beyond inference-time augmentation, supervised fine-tuning (SFT) on S-Agent-generated spatial trajectories S-300K yields S-Agent-8B, a compact spatial agent that significantly surpasses similar-scale baselines (e.g., Qwen3-VL-8B) and performs comparably to advanced closed-source models (e.g., GPT-5.4 and Gemini 3).