SpatialThinker : Renforcement du raisonnement 3D dans les LLM multimodaux par des récompenses spatiales
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
November 10, 2025
papers.authors: Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark
cs.AI
papers.abstract
Les modèles de langage multimodaux (MLLM) ont réalisé des progrès remarquables dans les tâches de vision et langage, mais ils continuent de rencontrer des difficultés dans la compréhension spatiale. Les MLLM spatiaux existants reposent souvent sur des entrées 3D explicites ou des modifications spécifiques à l'architecture, et restent limités par des jeux de données à grande échelle ou un apprentissage supervisé épars. Pour résoudre ces limitations, nous présentons SpatialThinker, un MLLM conscient de la 3D entraîné par apprentissage par renforcement (RL) pour intégrer un ancrage spatial structuré avec un raisonnement multi-étapes. Le modèle simule la perception spatiale humaine en construisant un graphe de scène des objets pertinents pour la tâche et des relations spatiales, et en raisonnant vers une réponse via des récompenses spatiales denses. SpatialThinker comprend deux contributions principales : (1) un pipeline de synthèse de données qui génère STVQA-7K, un jeu de données de haute qualité pour la question-réponse visuelle spatiale, et (2) un RL en ligne avec une récompense spatiale dense multi-objectif qui renforce l'ancrage spatial. SpatialThinker-7B surpasse l'apprentissage supervisé par fine-tuning et la base de référence RL éparse sur des benchmarks de compréhension spatiale et de question-réponse visuelle du monde réel, doublant presque le gain du modèle de base par rapport au RL éparse, et dépassant GPT-4o. Ces résultats démontrent l'efficacité de combiner une supervision spatiale avec un raisonnement aligné par récompense pour permettre une compréhension spatiale 3D robuste avec des données limitées et faire progresser les MLLM vers un raisonnement visuel de niveau humain.
English
Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language tasks, but they continue to struggle with spatial understanding. Existing spatial MLLMs often rely on explicit 3D inputs or architecture-specific modifications, and remain constrained by large-scale datasets or sparse supervision. To address these limitations, we introduce SpatialThinker, a 3D-aware MLLM trained with RL to integrate structured spatial grounding with multi-step reasoning. The model simulates human-like spatial perception by constructing a scene graph of task-relevant objects and spatial relations, and reasoning towards an answer via dense spatial rewards. SpatialThinker consists of two key contributions: (1) a data synthesis pipeline that generates STVQA-7K, a high-quality spatial VQA dataset, and (2) online RL with a multi-objective dense spatial reward enforcing spatial grounding. SpatialThinker-7B outperforms supervised fine-tuning and the sparse RL baseline on spatial understanding and real-world VQA benchmarks, nearly doubling the base-model gain compared to sparse RL, and surpassing GPT-4o. These results showcase the effectiveness of combining spatial supervision with reward-aligned reasoning in enabling robust 3D spatial understanding with limited data and advancing MLLMs towards human-level visual reasoning.