Think3D: 공간적 추론을 위한 공간 사고
Think3D: Thinking with Space for Spatial Reasoning
January 19, 2026
저자: Zaibin Zhang, Yuhan Wu, Lianjie Jia, Yifan Wang, Zhongbo Zhang, Yijiang Li, Binghao Ran, Fuxi Zhang, Zhuohan Sun, Zhenfei Yin, Lijun Wang, Huchuan Lu
cs.AI
초록
물리적 세계를 이해하고 추론하기 위해서는 공간 지능, 즉 2D 인식을 넘어 기하학적 구조, 원근법, 공간 관계를 해석하는 능력이 필요합니다. 최근 등장한 비전 대규모 모델(VLM)은 시각적 이해에 뛰어나지만, 근본적으로 2D 인식자에 머물러 진정한 3D 추론에는 어려움을 겪습니다. 본 연구에서는 VLM 에이전트가 3D 공간으로 사고할 수 있도록 하는 Think3D 프레임워크를 소개합니다. 이미지나 비디오에서 포인트 클라우드와 카메라 포즈를 복원하는 3D 재구성 모델을 활용하여, Think3D는 에이전트가 카메라 기반 조작과 에고/글로벌 뷰 전환을 통해 공간을 능동적으로 조작하고, 공간 추론을 대화형 3D 사고 연쇄 과정으로 전환하도록 합니다. 추가 학습 없이도 Think3D는 GPT-4.1 및 Gemini 2.5 Pro와 같은 고급 모델의 공간 추론 성능을 크게 향상시켜 BLINK Multi-view와 MindCube에서 평균 +7.8%, VSI-Bench에서 +4.7%의 성능 향상을 달성했습니다. 또한 공간 탐색에 어려움을 겪는 소규모 모델의 경우, 정보가 풍부한 시점과 조작을 선택할 수 있도록 하는 강화 학습 정책을 통해 큰 이점을 얻는 것을 확인했습니다. 강화 학습을 통해 도구 사용의 이점은 +0.7%에서 +6.8%로 증가했습니다. 우리의 연구 결과는 학습이 필요 없는 도구 증강 공간 탐색이 다중모달 에이전트에서 더 유연하고 인간과 유사한 3D 추론을 위한 실현 가능한 경로이며, 다중모달 지능의 새로운 차원을 정립함을 보여줍니다. 코드와 가중치는 https://github.com/zhangzaibin/spagent에서 공개됩니다.
English
Understanding and reasoning about the physical world requires spatial intelligence: the ability to interpret geometry, perspective, and spatial relations beyond 2D perception. While recent vision large models (VLMs) excel at visual understanding, they remain fundamentally 2D perceivers and struggle with genuine 3D reasoning. We introduce Think3D, a framework that enables VLM agents to think with 3D space. By leveraging 3D reconstruction models that recover point clouds and camera poses from images or videos, Think3D allows the agent to actively manipulate space through camera-based operations and ego/global-view switching, transforming spatial reasoning into an interactive 3D chain-of-thought process. Without additional training, Think3D significantly improves the spatial reasoning performance of advanced models such as GPT-4.1 and Gemini 2.5 Pro, yielding average gains of +7.8% on BLINK Multi-view and MindCube, and +4.7% on VSI-Bench. We further show that smaller models, which struggle with spatial exploration, benefit significantly from a reinforcement learning policy that enables the model to select informative viewpoints and operations. With RL, the benefit from tool usage increases from +0.7% to +6.8%. Our findings demonstrate that training-free, tool-augmented spatial exploration is a viable path toward more flexible and human-like 3D reasoning in multimodal agents, establishing a new dimension of multimodal intelligence. Code and weights are released at https://github.com/zhangzaibin/spagent.