Pense3D: Pensar com o Espaço para o Raciocínio Espacial

Resumo

Compreender e raciocinar sobre o mundo físico exige inteligência espacial: a capacidade de interpretar geometria, perspectiva e relações espaciais para além da percepção 2D. Embora os modelos visuais de grande escala (VLMs) recentes se destaquem na compreensão visual, eles permanecem fundamentalmente como perceptores 2D e lutam com o raciocínio 3D genuíno. Apresentamos o Think3D, uma estrutura que permite a agentes VLM pensar com o espaço 3D. Ao aproveitar modelos de reconstrução 3D que recuperam nuvens de pontos e poses de câmera a partir de imagens ou vídeos, o Think3D permite que o agente manipule ativamente o espaço através de operações baseadas em câmera e comutação entre visão egocêntrica/global, transformando o raciocínio espacial em um processo interativo de cadeia de pensamento 3D. Sem treinamento adicional, o Think3D melhora significativamente o desempenho de raciocínio espacial de modelos avançados como GPT-4.1 e Gemini 2.5 Pro, resultando em ganhos médios de +7,8% no BLINK Multi-view e MindCube, e +4,7% no VSI-Bench. Mostramos ainda que modelos menores, que têm dificuldades com a exploração espacial, beneficiam-se significativamente de uma política de aprendizagem por reforço que permite ao modelo selecionar pontos de vista e operações informativos. Com a AR, o benefício do uso da ferramenta aumenta de +0,7% para +6,8%. Nossas descobertas demonstram que a exploração espacial aumentada por ferramentas e livre de treinamento é um caminho viável para um raciocínio 3D mais flexível e semelhante ao humano em agentes multimodais, estabelecendo uma nova dimensão da inteligência multimodal. Código e pesos são disponibilizados em https://github.com/zhangzaibin/spagent.

English

Understanding and reasoning about the physical world requires spatial intelligence: the ability to interpret geometry, perspective, and spatial relations beyond 2D perception. While recent vision large models (VLMs) excel at visual understanding, they remain fundamentally 2D perceivers and struggle with genuine 3D reasoning. We introduce Think3D, a framework that enables VLM agents to think with 3D space. By leveraging 3D reconstruction models that recover point clouds and camera poses from images or videos, Think3D allows the agent to actively manipulate space through camera-based operations and ego/global-view switching, transforming spatial reasoning into an interactive 3D chain-of-thought process. Without additional training, Think3D significantly improves the spatial reasoning performance of advanced models such as GPT-4.1 and Gemini 2.5 Pro, yielding average gains of +7.8% on BLINK Multi-view and MindCube, and +4.7% on VSI-Bench. We further show that smaller models, which struggle with spatial exploration, benefit significantly from a reinforcement learning policy that enables the model to select informative viewpoints and operations. With RL, the benefit from tool usage increases from +0.7% to +6.8%. Our findings demonstrate that training-free, tool-augmented spatial exploration is a viable path toward more flexible and human-like 3D reasoning in multimodal agents, establishing a new dimension of multimodal intelligence. Code and weights are released at https://github.com/zhangzaibin/spagent.

Pense3D: Pensar com o Espaço para o Raciocínio Espacial

Think3D: Thinking with Space for Spatial Reasoning

Resumo

Support