SpatialThinker: Reforçando o Raciocínio 3D em MLLMs Multimodais por meio de Recompensas Espaciais

Resumo

Os modelos de linguagem multimodal (MLLMs) alcançaram progressos notáveis em tarefas de visão e linguagem, mas continuam a enfrentar dificuldades na compreensão espacial. Os MLLMs espaciais existentes frequentemente dependem de entradas 3D explícitas ou modificações específicas da arquitetura, permanecendo limitados por conjuntos de dados em larga escala ou supervisão esparsa. Para superar essas limitações, apresentamos o SpatialThinker, um MLLM com consciência 3D treinado com RL para integrar fundamentação espacial estruturada com raciocínio multi-etapas. O modelo simula a percepção espacial humana construindo um grafo de cena com objetos relevantes para a tarefa e suas relações espaciais, raciocinando em direção a uma resposta por meio de recompensas espaciais densas. O SpatialThinker consiste em duas contribuições principais: (1) um pipeline de síntese de dados que gera o STVQA-7K, um conjunto de dados de alta qualidade para VQA espacial, e (2) RL online com uma recompensa espacial densa multi-objetivo que reforça a fundamentação espacial. O SpatialThinker-7B supera a afinação supervisionada e a linha de base de RL esparso em benchmarks de compreensão espacial e VQA do mundo real, quase duplicando o ganho do modelo base em comparação com o RL esparso e superando o GPT-4o. Estes resultados demonstram a eficácia de combinar supervisão espacial com raciocínio alinhado por recompensa para permitir uma compreensão espacial 3D robusta com dados limitados, avançando os MLLMs em direção ao raciocínio visual de nível humano.

English

Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language tasks, but they continue to struggle with spatial understanding. Existing spatial MLLMs often rely on explicit 3D inputs or architecture-specific modifications, and remain constrained by large-scale datasets or sparse supervision. To address these limitations, we introduce SpatialThinker, a 3D-aware MLLM trained with RL to integrate structured spatial grounding with multi-step reasoning. The model simulates human-like spatial perception by constructing a scene graph of task-relevant objects and spatial relations, and reasoning towards an answer via dense spatial rewards. SpatialThinker consists of two key contributions: (1) a data synthesis pipeline that generates STVQA-7K, a high-quality spatial VQA dataset, and (2) online RL with a multi-objective dense spatial reward enforcing spatial grounding. SpatialThinker-7B outperforms supervised fine-tuning and the sparse RL baseline on spatial understanding and real-world VQA benchmarks, nearly doubling the base-model gain compared to sparse RL, and surpassing GPT-4o. These results showcase the effectiveness of combining spatial supervision with reward-aligned reasoning in enabling robust 3D spatial understanding with limited data and advancing MLLMs towards human-level visual reasoning.

SpatialThinker: Reforçando o Raciocínio 3D em MLLMs Multimodais por meio de Recompensas Espaciais

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

Resumo

Support