ChatPaper.aiChatPaper

Think3D: 空間的推論のための空間的思考

Think3D: Thinking with Space for Spatial Reasoning

January 19, 2026
著者: Zaibin Zhang, Yuhan Wu, Lianjie Jia, Yifan Wang, Zhongbo Zhang, Yijiang Li, Binghao Ran, Fuxi Zhang, Zhuohan Sun, Zhenfei Yin, Lijun Wang, Huchuan Lu
cs.AI

要旨

物理世界を理解し推論するには、空間的知性が必要である。これは、2D知覚を超えて幾何学、遠近法、空間関係を解釈する能力を指す。近年の視覚大規模モデル(VLM)は視覚的理解に優れるが、本質的には2D知覚器であり、真の3D推論には課題を残している。本論文では、VLMエージェントが3D空間を用いて思考する枠組み「Think3D」を提案する。Think3Dは、画像や動画から点群とカメラ姿勢を復元する3D再構成モデルを活用し、カメラ操作やエゴ/グローバル視点切替を通じてエージェントが能動的に空間を操作することを可能とし、空間推論を対話的な3D連鎖思考プロセスへと変換する。追加学習なしで、Think3DはGPT-4.1やGemini 2.5 Proなどの先進モデルの空間推論性能を大幅に向上させ、BLINK Multi-viewとMindCubeでは平均+7.8%、VSI-Benchでは+4.7%の改善をもたらした。さらに、空間探索が困難な小規模モデルでは、情報量の多い視点と操作を選択する強化学習ポリシーにより顕著な改善が見られ、ツール活用による効果が+0.7%から+6.8%に向上した。我々の知見は、学習不要なツール拡張型空間探索が、マルチモーダルエージェントにおける柔軟で人間的な3D推論への有効な道筋であることを示し、マルチモーダル知能の新たな次元を確立する。コードと重みはhttps://github.com/zhangzaibin/spagentで公開されている。
English
Understanding and reasoning about the physical world requires spatial intelligence: the ability to interpret geometry, perspective, and spatial relations beyond 2D perception. While recent vision large models (VLMs) excel at visual understanding, they remain fundamentally 2D perceivers and struggle with genuine 3D reasoning. We introduce Think3D, a framework that enables VLM agents to think with 3D space. By leveraging 3D reconstruction models that recover point clouds and camera poses from images or videos, Think3D allows the agent to actively manipulate space through camera-based operations and ego/global-view switching, transforming spatial reasoning into an interactive 3D chain-of-thought process. Without additional training, Think3D significantly improves the spatial reasoning performance of advanced models such as GPT-4.1 and Gemini 2.5 Pro, yielding average gains of +7.8% on BLINK Multi-view and MindCube, and +4.7% on VSI-Bench. We further show that smaller models, which struggle with spatial exploration, benefit significantly from a reinforcement learning policy that enables the model to select informative viewpoints and operations. With RL, the benefit from tool usage increases from +0.7% to +6.8%. Our findings demonstrate that training-free, tool-augmented spatial exploration is a viable path toward more flexible and human-like 3D reasoning in multimodal agents, establishing a new dimension of multimodal intelligence. Code and weights are released at https://github.com/zhangzaibin/spagent.
PDF281January 22, 2026