공간사고가: 공간 보상을 통한 멀티모달 LLM의 3D 추론 능력 강화
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
November 10, 2025
저자: Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)은 시각-언어 과제에서 놀라운 발전을 이루었으나 공간 이해에는 여전히 어려움을 겪고 있습니다. 기존 공간 MLLM은 명시적인 3D 입력이나 아키텍처 특화 수정에 의존하는 경우가 많으며, 대규모 데이터셋이나 희소한 지도 학습에 의해 제약을 받습니다. 이러한 한계를 해결하기 위해 우리는 구조화된 공간 기반과 다단계 추론을 통합하도록 RL로 훈련된 3D 인식 MLLM인 SpatialThinker를 소개합니다. 이 모델은 작업 관련 객체와 공간 관계의 장면 그래프를 구성하고, 밀집된 공간 보상을 통해 답변을 추론함으로써 인간과 유사한 공간 인식을 모방합니다. SpatialThinker는 두 가지 핵심 기여로 구성됩니다: (1) 고품질 공간 VQA 데이터셋인 STVQA-7K를 생성하는 데이터 합성 파이프라인, (2) 공간 기반을 강화하는 다중 목적 밀집 공간 보상을 활용한 온라인 RL. SpatialThinker-7B는 공간 이해 및 실제 VQA 벤치마크에서 지도 미세 조정 및 희소 RL 기준선을 능가하며, 희소 RL 대비 기본 모델 성능 향상치를 거의 두 배로 높이고 GPT-4o를 추월했습니다. 이러한 결과는 제한된 데이터로 강력한 3D 공간 이해를 가능하게 하고 인간 수준의 시각 추론을 향해 MLLM을 발전시키는 데 있어 공간 지도 학습과 보상 정렬 추론의 결합 효과를 입증합니다.
English
Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language tasks, but they continue to struggle with spatial understanding. Existing spatial MLLMs often rely on explicit 3D inputs or architecture-specific modifications, and remain constrained by large-scale datasets or sparse supervision. To address these limitations, we introduce SpatialThinker, a 3D-aware MLLM trained with RL to integrate structured spatial grounding with multi-step reasoning. The model simulates human-like spatial perception by constructing a scene graph of task-relevant objects and spatial relations, and reasoning towards an answer via dense spatial rewards. SpatialThinker consists of two key contributions: (1) a data synthesis pipeline that generates STVQA-7K, a high-quality spatial VQA dataset, and (2) online RL with a multi-objective dense spatial reward enforcing spatial grounding. SpatialThinker-7B outperforms supervised fine-tuning and the sparse RL baseline on spatial understanding and real-world VQA benchmarks, nearly doubling the base-model gain compared to sparse RL, and surpassing GPT-4o. These results showcase the effectiveness of combining spatial supervision with reward-aligned reasoning in enabling robust 3D spatial understanding with limited data and advancing MLLMs towards human-level visual reasoning.