SpatialThinker: Rafforzare il Ragionamento 3D nei LLM Multimodali tramite Ricompense Spaziali
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
November 10, 2025
Autori: Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi notevoli nelle attività di visione e linguaggio, ma continuano a incontrare difficoltà nella comprensione spaziale. I modelli spaziali MLLM esistenti spesso si basano su input 3D espliciti o modifiche specifiche all'architettura, rimanendo vincolati da dataset su larga scala o supervisione sparsa. Per affrontare queste limitazioni, introduciamo SpatialThinker, un MLLM con consapevolezza 3D addestrato con apprendimento per rinforzo (RL) per integrare il grounding spaziale strutturato con ragionamenti a più fasi. Il modello simula la percezione spaziale umana costruendo un grafo della scena degli oggetti rilevanti per il compito e delle relazioni spaziali, ragionando verso una risposta attraverso ricompense spaziali dense. SpatialThinker consiste in due contributi chiave: (1) una pipeline di sintesi dei dati che genera STVQA-7K, un dataset di alta qualità per VQA spaziale, e (2) un RL online con una ricompensa spaziale densa multi-obiettivo che impone il grounding spaziale. SpatialThinker-7B supera il fine-tuning supervisionato e la baseline di RL sparso nella comprensione spaziale e nei benchmark di VQA del mondo reale, quasi raddoppiando il guadagno del modello base rispetto al RL sparso e superando GPT-4o. Questi risultati dimostrano l'efficacia della combinazione tra supervisione spaziale e ragionamento alineato alle ricompense nell'abilitare una robusta comprensione spaziale 3D con dati limitati e nel far progredire gli MLLM verso un ragionamento visivo di livello umano.
English
Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language tasks, but they continue to struggle with spatial understanding. Existing spatial MLLMs often rely on explicit 3D inputs or architecture-specific modifications, and remain constrained by large-scale datasets or sparse supervision. To address these limitations, we introduce SpatialThinker, a 3D-aware MLLM trained with RL to integrate structured spatial grounding with multi-step reasoning. The model simulates human-like spatial perception by constructing a scene graph of task-relevant objects and spatial relations, and reasoning towards an answer via dense spatial rewards. SpatialThinker consists of two key contributions: (1) a data synthesis pipeline that generates STVQA-7K, a high-quality spatial VQA dataset, and (2) online RL with a multi-objective dense spatial reward enforcing spatial grounding. SpatialThinker-7B outperforms supervised fine-tuning and the sparse RL baseline on spatial understanding and real-world VQA benchmarks, nearly doubling the base-model gain compared to sparse RL, and surpassing GPT-4o. These results showcase the effectiveness of combining spatial supervision with reward-aligned reasoning in enabling robust 3D spatial understanding with limited data and advancing MLLMs towards human-level visual reasoning.