ChatPaper.aiChatPaper

SpatialThinker: Versterking van 3D-redeneren in multimodale LLM's via ruimtelijke beloningen

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

November 10, 2025
Auteurs: Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben opmerkelijke vooruitgang geboekt in visie-taaltaken, maar ze blijven moeite houden met ruimtelijk begrip. Bestaande ruimtelijke MLLM's zijn vaak afhankelijk van expliciete 3D-invoer of architectuurspecifieke aanpassingen, en worden beperkt door grootschalige datasets of schaarse supervisie. Om deze beperkingen aan te pakken, introduceren we SpatialThinker, een 3D-bewuste MLLM getraind met RL om gestructureerde ruimtelijke verankering te integreren met meerstaps redeneren. Het model simuleert mensachtige ruimtelijke perceptie door het construeren van een scènegraph van taakrelevante objecten en ruimtelijke relaties, en redeneert via dichte ruimtelijke beloningen naar een antwoord. SpatialThinker bestaat uit twee belangrijke bijdragen: (1) een datasynthesepijplijn die STVQA-7K genereert, een hoogwaardige ruimtelijke VQA-dataset, en (2) online RL met een multi-objectieve dichte ruimtelijke beloning die ruimtelijke verankering afdwingt. SpatialThinker-7B presteert beter dan supervised fine-tuning en de baseline met schaarse RL op ruimtelijk begrip en real-world VQA benchmarks, verdubbelt bijna de winst van het basismodel vergeleken met schaarse RL, en overtreft GPT-4o. Deze resultaten tonen de effectiviteit aan van het combineren van ruimtelijke supervisie met beloningsgealigneerd redeneren om robuust 3D-ruimtelijk begrip mogelijk te maken met beperkte data en MLLM's naar menselijk niveau van visueel redeneren te brengen.
English
Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language tasks, but they continue to struggle with spatial understanding. Existing spatial MLLMs often rely on explicit 3D inputs or architecture-specific modifications, and remain constrained by large-scale datasets or sparse supervision. To address these limitations, we introduce SpatialThinker, a 3D-aware MLLM trained with RL to integrate structured spatial grounding with multi-step reasoning. The model simulates human-like spatial perception by constructing a scene graph of task-relevant objects and spatial relations, and reasoning towards an answer via dense spatial rewards. SpatialThinker consists of two key contributions: (1) a data synthesis pipeline that generates STVQA-7K, a high-quality spatial VQA dataset, and (2) online RL with a multi-objective dense spatial reward enforcing spatial grounding. SpatialThinker-7B outperforms supervised fine-tuning and the sparse RL baseline on spatial understanding and real-world VQA benchmarks, nearly doubling the base-model gain compared to sparse RL, and surpassing GPT-4o. These results showcase the effectiveness of combining spatial supervision with reward-aligned reasoning in enabling robust 3D spatial understanding with limited data and advancing MLLMs towards human-level visual reasoning.
PDF132December 1, 2025