SpatialThinker: Stärkung des 3D-Verständnisses in multimodalen LLMs durch räumliche Belohnungen
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
November 10, 2025
papers.authors: Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte bei Vision-Sprache-Aufgaben erzielt, tun sich aber nach wie vor schwer mit räumlichem Verständnis. Bestehende räumliche MLLMs greifen oft auf explizite 3D-Eingaben oder architekturspezifische Modifikationen zurück und bleiben durch umfangreiche Datensätze oder spärliche Supervision eingeschränkt. Um diese Einschränkungen zu adressieren, stellen wir SpatialThinker vor, ein 3D-bewusstes MLLM, das mit Reinforcement Learning (RL) trainiert wurde, um strukturierte räumliche Verankerung mit mehrstufigem Reasoning zu integrieren. Das Modell simuliert eine menschenähnliche Raumwahrnehmung, indem es einen Szenengraphen aufbaut, der aufgabenrelevante Objekte und räumliche Beziehungen enthält, und über dichte räumliche Belohnungen schrittweise zu einer Antwort gelangt. SpatialThinker besteht aus zwei zentralen Beiträgen: (1) einer Datensynthese-Pipeline, die STVQA-7K generiert, einen hochwertigen räumlichen VQA-Datensatz, und (2) Online-RL mit einem multiobjektiven, dichten räumlichen Belohnungssignal, das die räumliche Verankerung erzwingt. SpatialThinker-7B übertrifft überwachtes Fine-Tuning und die sparse RL-Baseline bei räumlichem Verständnis und realen VQA-Benchmarks, verdoppelt nahezu den Leistungszuwachs des Basismodells im Vergleich zu sparse RL und übertrifft GPT-4o. Diese Ergebnisse demonstrieren die Wirksamkeit der Kombination von räumlicher Supervision und belohnungsorientiertem Reasoning, um robustes 3D-Raumverständnis mit begrenzten Daten zu ermöglichen und MLLMs in Richtung menschenähnlichen visuellen Denkens voranzubringen.
English
Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language tasks, but they continue to struggle with spatial understanding. Existing spatial MLLMs often rely on explicit 3D inputs or architecture-specific modifications, and remain constrained by large-scale datasets or sparse supervision. To address these limitations, we introduce SpatialThinker, a 3D-aware MLLM trained with RL to integrate structured spatial grounding with multi-step reasoning. The model simulates human-like spatial perception by constructing a scene graph of task-relevant objects and spatial relations, and reasoning towards an answer via dense spatial rewards. SpatialThinker consists of two key contributions: (1) a data synthesis pipeline that generates STVQA-7K, a high-quality spatial VQA dataset, and (2) online RL with a multi-objective dense spatial reward enforcing spatial grounding. SpatialThinker-7B outperforms supervised fine-tuning and the sparse RL baseline on spatial understanding and real-world VQA benchmarks, nearly doubling the base-model gain compared to sparse RL, and surpassing GPT-4o. These results showcase the effectiveness of combining spatial supervision with reward-aligned reasoning in enabling robust 3D spatial understanding with limited data and advancing MLLMs towards human-level visual reasoning.