S-Agent: Uso espacial de ferramentas suscita raciocínio para inteligência espacial

Resumo

A inteligência espacial no mundo real exige raciocínio sobre um mundo 3D contínuo e em evolução, no entanto, os VLMs e agentes aumentados por ferramentas existentes permanecem em grande parte restritos a inferências estáticas e sem estado a partir de observações visuais isoladas. Apresentamos o \textsc{S-Agent}, um paradigma agêntico de uso de ferramentas espaciais para compreender e raciocinar sobre imagens e vídeos multi-visão contínuos. Ao formular o raciocínio espacial como acumulação de evidências espaçotemporais, em vez de previsão isolada em nível de quadro, o S-Agent remodela a percepção espacial para uma compreensão centrada na cena, além do reconhecimento centrado no quadro. Especificamente, o S-Agent posiciona o VLM como um planejador semântico que decide quais evidências são necessárias, enquanto uma hierarquia de ferramentas e especialistas espaciais ancora objetos em 2D, eleva-os para evidências geométricas 3D e agrega essas evidências em conhecimento espacial de alto nível (por exemplo, contagem, medição, orientação e posição relativa). Além disso, um mecanismo de memória temporal, incluindo a Memória de Cena para manter o estado da cena em evolução e a Memória do Agente para acumular o contexto de raciocínio, permite a integração de evidências entre quadros e etapas de raciocínio. Experimentos abrangentes em benchmarks de raciocínio espacial multi-visão e em vídeo mostram que o S-Agent melhora consistentemente tanto VLMs de código aberto quanto fechados, sem necessidade de treinamento. Além da melhoria no momento da inferência, o ajuste fino supervisionado (SFT) em trajetórias espaciais geradas pelo S-Agent, S-300K, produz o S-Agent-8B, um agente espacial compacto que supera significativamente as linhas de base de escala similar (por exemplo, Qwen3-VL-8B) e apresenta desempenho comparável a modelos avançados de código fechado (por exemplo, GPT-5.4 e Gemini 3).

English

Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textsc{S-Agent}, a spatial tool-use agentic paradigm for understanding and reasoning over continuous multi-view images and videos. By formulating spatial reasoning as spatio-temporal evidence accumulation rather than isolated frame-level prediction, S-Agent reshapes spatial perception into scene-centric understanding beyond frame-centric recognition. Specifically, S-Agent casts the VLM as a semantic planner that decides what evidence is needed, while a hierarchy of spatial tools and experts grounds objects in 2D, lifts them into 3D geometric evidence, and aggregates this evidence into high-level spatial knowledge (e.g., counting, measurement, orientation, and relative position). Additionally, a temporal memory mechanism, including Scene Memory for maintaining the evolving scene state and Agent Memory for accumulating reasoning context, enables evidence integration across frames and reasoning steps. Comprehensive experiments on multi-view and video spatial reasoning benchmarks show that S-Agent consistently improves both open-source and closed-source VLMs in a training-free manner. Beyond inference-time augmentation, supervised fine-tuning (SFT) on S-Agent-generated spatial trajectories S-300K yields S-Agent-8B, a compact spatial agent that significantly surpasses similar-scale baselines (e.g., Qwen3-VL-8B) and performs comparably to advanced closed-source models (e.g., GPT-5.4 and Gemini 3).