ChatPaper.aiChatPaper

SpatialThinker: Reforzando el Razonamiento 3D en LLMs Multimodales mediante Recompensas Espaciales

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

November 10, 2025
Autores: Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark
cs.AI

Resumen

Los modelos lingüísticos multimodales (MLLM) han logrado avances notables en tareas de visión y lenguaje, pero continúan presentando dificultades en la comprensión espacial. Los MLLM espaciales existentes a menudo dependen de entradas 3D explícitas o modificaciones específicas de la arquitectura, y siguen limitados por conjuntos de datos a gran escala o supervisión escasa. Para abordar estas limitaciones, presentamos SpatialThinker, un MLLM con conciencia 3D entrenado con Aprendizaje por Refuerzo (RL) para integrar la fundamentación espacial estructurada con el razonamiento multi-etapa. El modelo simula la percepción espacial humana construyendo un grafo de escena con los objetos relevantes para la tarea y sus relaciones espaciales, y razonando hacia una respuesta mediante recompensas espaciales densas. SpatialThinker consta de dos contribuciones clave: (1) una canalización de síntesis de datos que genera STVQA-7K, un conjunto de datos de alta calidad para VQA espacial, y (2) un RL en línea con una recompensa espacial densa multi-objetivo que refuerza la fundamentación espacial. SpatialThinker-7B supera al ajuste fino supervisado y a la línea base de RL escaso en benchmarks de comprensión espacial y VQA del mundo real, casi duplicando la mejora del modelo base en comparación con el RL escaso, y superando a GPT-4o. Estos resultados demuestran la eficacia de combinar la supervisión espacial con el razonamiento alineado por recompensas para permitir una comprensión espacial 3D robusta con datos limitados y avanzar hacia un razonamiento visual a nivel humano en los MLLM.
English
Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language tasks, but they continue to struggle with spatial understanding. Existing spatial MLLMs often rely on explicit 3D inputs or architecture-specific modifications, and remain constrained by large-scale datasets or sparse supervision. To address these limitations, we introduce SpatialThinker, a 3D-aware MLLM trained with RL to integrate structured spatial grounding with multi-step reasoning. The model simulates human-like spatial perception by constructing a scene graph of task-relevant objects and spatial relations, and reasoning towards an answer via dense spatial rewards. SpatialThinker consists of two key contributions: (1) a data synthesis pipeline that generates STVQA-7K, a high-quality spatial VQA dataset, and (2) online RL with a multi-objective dense spatial reward enforcing spatial grounding. SpatialThinker-7B outperforms supervised fine-tuning and the sparse RL baseline on spatial understanding and real-world VQA benchmarks, nearly doubling the base-model gain compared to sparse RL, and surpassing GPT-4o. These results showcase the effectiveness of combining spatial supervision with reward-aligned reasoning in enabling robust 3D spatial understanding with limited data and advancing MLLMs towards human-level visual reasoning.
PDF132December 1, 2025