Think3D: Denken met ruimte voor ruimtelijk redeneren

Samenvatting

Het begrijpen en redeneren over de fysieke wereld vereist ruimtelijke intelligentie: het vermogen om geometrie, perspectief en ruimtelijke relaties te interpreteren voorbij 2D-waarneming. Hoewel recente vision large models (VLMs) uitblinken in visueel begrip, blijven ze fundamenteel 2D-waarnemers en hebben ze moeite met echt 3D-redeneren. Wij introduceren Think3D, een raamwerk dat VLM-agenten in staat stelt om met 3D-ruimte te denken. Door gebruik te maken van 3D-reconstructiemodellen die puntenwolken en cameraposities herstellen uit afbeeldingen of video's, stelt Think3D de agent in staat om de ruimte actief te manipuleren via camera-gebaseerde operaties en ego/globale view-switching, waardoor ruimtelijk redeneren wordt getransformeerd in een interactief 3D chain-of-thought-proces. Zonder extra training verbetert Think3D de ruimtelijke redeneerprestaties van geavanceerde modellen zoals GPT-4.1 en Gemini 2.5 Pro aanzienlijk, met gemiddelde winsten van +7,8% op BLINK Multi-view en MindCube, en +4,7% op VSI-Bench. We tonen verder aan dat kleinere modellen, die moeite hebben met ruimtelijke exploratie, aanzienlijk profiteren van een reinforcement learning-beleid dat het model in staat stelt om informatieve gezichtspunten en operaties te selecteren. Met RL neemt het voordeel van toolgebruik toe van +0,7% naar +6,8%. Onze bevindingen tonen aan dat trainingsvrije, tool-augmented ruimtelijke exploratie een haalbare weg is naar meer flexibel en menselijk 3D-redeneren in multimodale agenten, waarmee een nieuwe dimensie van multimodale intelligentie wordt gevestigd. Code en gewichten zijn vrijgegeven op https://github.com/zhangzaibin/spagent.

English

Understanding and reasoning about the physical world requires spatial intelligence: the ability to interpret geometry, perspective, and spatial relations beyond 2D perception. While recent vision large models (VLMs) excel at visual understanding, they remain fundamentally 2D perceivers and struggle with genuine 3D reasoning. We introduce Think3D, a framework that enables VLM agents to think with 3D space. By leveraging 3D reconstruction models that recover point clouds and camera poses from images or videos, Think3D allows the agent to actively manipulate space through camera-based operations and ego/global-view switching, transforming spatial reasoning into an interactive 3D chain-of-thought process. Without additional training, Think3D significantly improves the spatial reasoning performance of advanced models such as GPT-4.1 and Gemini 2.5 Pro, yielding average gains of +7.8% on BLINK Multi-view and MindCube, and +4.7% on VSI-Bench. We further show that smaller models, which struggle with spatial exploration, benefit significantly from a reinforcement learning policy that enables the model to select informative viewpoints and operations. With RL, the benefit from tool usage increases from +0.7% to +6.8%. Our findings demonstrate that training-free, tool-augmented spatial exploration is a viable path toward more flexible and human-like 3D reasoning in multimodal agents, establishing a new dimension of multimodal intelligence. Code and weights are released at https://github.com/zhangzaibin/spagent.

Think3D: Denken met ruimte voor ruimtelijk redeneren

Think3D: Thinking with Space for Spatial Reasoning

Samenvatting

Support