Think3D: Pensare con lo Spazio per il Ragionamento Spaziale

Abstract

Comprendere e ragionare sul mondo fisico richiede intelligenza spaziale: la capacità di interpretare la geometria, la prospettiva e le relazioni spaziali oltre la percezione 2D. Sebbene i recenti Large Model Visivi (VLM) eccellano nella comprensione visiva, rimangono fondamentalmente percettori 2D e faticano con un ragionamento 3D genuino. Introduciamo Think3D, un framework che consente agli agenti VLM di pensare con lo spazio 3D. Sfruttando modelli di ricostruzione 3D che recuperano nuvole di punti e pose della telecamera da immagini o video, Think3D permette all'agente di manipolare attivamente lo spazio attraverso operazioni basate sulla telecamera e commutazione tra vista egocentrica/globale, trasformando il ragionamento spaziale in un processo interattivo a catena del pensiero (chain-of-thought) in 3D. Senza training aggiuntivo, Think3D migliora significativamente le prestazioni di ragionamento spaziale di modelli avanzati come GPT-4.1 e Gemini 2.5 Pro, ottenendo guadagni medi di +7,8% su BLINK Multi-view e MindCube, e +4,7% su VSI-Bench. Mostriamo inoltre che modelli più piccoli, che faticano con l'esplorazione spaziale, beneficiano significativamente di una politica di apprendimento per rinforzo (RL) che permette al modello di selezionare punti di vista e operazioni informativi. Con il RL, il beneficio dall'uso degli strumenti aumenta da +0,7% a +6,8%. I nostri risultati dimostrano che l'esplorazione spaziale aumentata da strumenti e senza training è un percorso percorribile verso un ragionamento 3D più flessibile e simile a quello umano negli agenti multimodali, stabilendo una nuova dimensione dell'intelligenza multimodale. Codice e pesi sono rilasciati su https://github.com/zhangzaibin/spagent.

English

Understanding and reasoning about the physical world requires spatial intelligence: the ability to interpret geometry, perspective, and spatial relations beyond 2D perception. While recent vision large models (VLMs) excel at visual understanding, they remain fundamentally 2D perceivers and struggle with genuine 3D reasoning. We introduce Think3D, a framework that enables VLM agents to think with 3D space. By leveraging 3D reconstruction models that recover point clouds and camera poses from images or videos, Think3D allows the agent to actively manipulate space through camera-based operations and ego/global-view switching, transforming spatial reasoning into an interactive 3D chain-of-thought process. Without additional training, Think3D significantly improves the spatial reasoning performance of advanced models such as GPT-4.1 and Gemini 2.5 Pro, yielding average gains of +7.8% on BLINK Multi-view and MindCube, and +4.7% on VSI-Bench. We further show that smaller models, which struggle with spatial exploration, benefit significantly from a reinforcement learning policy that enables the model to select informative viewpoints and operations. With RL, the benefit from tool usage increases from +0.7% to +6.8%. Our findings demonstrate that training-free, tool-augmented spatial exploration is a viable path toward more flexible and human-like 3D reasoning in multimodal agents, establishing a new dimension of multimodal intelligence. Code and weights are released at https://github.com/zhangzaibin/spagent.

Think3D: Pensare con lo Spazio per il Ragionamento Spaziale

Think3D: Thinking with Space for Spatial Reasoning

Abstract

Support