Think3D: Räumliches Denken mit Raum
Think3D: Thinking with Space for Spatial Reasoning
January 19, 2026
papers.authors: Zaibin Zhang, Yuhan Wu, Lianjie Jia, Yifan Wang, Zhongbo Zhang, Yijiang Li, Binghao Ran, Fuxi Zhang, Zhuohan Sun, Zhenfei Yin, Lijun Wang, Huchuan Lu
cs.AI
papers.abstract
Das Verständnis und die Schlussfolgerung über die physische Welt erfordert räumliche Intelligenz: die Fähigkeit, Geometrie, Perspektive und räumliche Beziehungen über die 2D-Wahrnehmung hinaus zu interpretieren. Während aktuelle visuelle Großmodelle (VLMs) bei visuellem Verständnis hervorragend abschneiden, bleiben sie grundlegend 2D-Wahrnehmende und haben Schwierigkeiten mit echtem 3D-Schließen. Wir stellen Think3D vor, einen Rahmen, der VLM-Agenten ermöglicht, im 3D-Raum zu denken. Durch die Nutzung von 3D-Rekonstruktionsmodellen, die Punktwolken und Kameraposen aus Bildern oder Videos zurückgewinnen, erlaubt Think3D dem Agenten, den Raum aktiv durch kamerabasierte Operationen und Ego-/Globalansichtswechsel zu manipulieren, wodurch räumliches Schließen in einen interaktiven 3D-Kettenschlussprozess transformiert wird. Ohne zusätzliches Training verbessert Think3D die räumliche Schlussfolgerungsleistung fortschrittlicher Modelle wie GPT-4.1 und Gemini 2.5 Pro erheblich, mit durchschnittlichen Steigerungen von +7,8 % bei BLINK Multi-view und MindCube sowie +4,7 % bei VSI-Bench. Wir zeigen weiter, dass kleinere Modelle, die mit räumlicher Exploration kämpfen, erheblich von einer Reinforcement-Learning-Strategie profitieren, die es dem Modell ermöglicht, informative Blickwinkel und Operationen auszuwählen. Mit RL steigt der Nutzen der Werkzeugnutzung von +0,7 % auf +6,8 %. Unsere Ergebnisse zeigen, dass trainingsfreie, werkzeuggestützte räumliche Exploration ein gangbarer Weg zu flexiblerem und menschenähnlicherem 3D-Schließen in multimodalen Agenten ist, und etablieren eine neue Dimension multimodaler Intelligenz. Code und Gewichte sind unter https://github.com/zhangzaibin/spagent veröffentlicht.
English
Understanding and reasoning about the physical world requires spatial intelligence: the ability to interpret geometry, perspective, and spatial relations beyond 2D perception. While recent vision large models (VLMs) excel at visual understanding, they remain fundamentally 2D perceivers and struggle with genuine 3D reasoning. We introduce Think3D, a framework that enables VLM agents to think with 3D space. By leveraging 3D reconstruction models that recover point clouds and camera poses from images or videos, Think3D allows the agent to actively manipulate space through camera-based operations and ego/global-view switching, transforming spatial reasoning into an interactive 3D chain-of-thought process. Without additional training, Think3D significantly improves the spatial reasoning performance of advanced models such as GPT-4.1 and Gemini 2.5 Pro, yielding average gains of +7.8% on BLINK Multi-view and MindCube, and +4.7% on VSI-Bench. We further show that smaller models, which struggle with spatial exploration, benefit significantly from a reinforcement learning policy that enables the model to select informative viewpoints and operations. With RL, the benefit from tool usage increases from +0.7% to +6.8%. Our findings demonstrate that training-free, tool-augmented spatial exploration is a viable path toward more flexible and human-like 3D reasoning in multimodal agents, establishing a new dimension of multimodal intelligence. Code and weights are released at https://github.com/zhangzaibin/spagent.