ChatPaper.aiChatPaper

SpatialThinker: Усиление 3D-рассуждений в мультимодальных LLM с помощью пространственных вознаграждений

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

November 10, 2025
Авторы: Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах, связанных с обработкой визуальной и языковой информации, однако они по-прежнему испытывают трудности с пространственным пониманием. Существующие пространственные MLLM часто полагаются на явные трехмерные входные данные или модификации архитектуры и остаются ограниченными необходимостью использования крупномасштабных наборов данных или разреженной разметки. Для преодоления этих ограничений мы представляем SpatialThinker — 3D-осознанную MLLM, обученную с подкреплением (RL) для интеграции структурированного пространственного обоснования с многошаговыми рассуждениями. Модель имитирует человеческое пространственное восприятие, строя граф сцены из релевантных задаче объектов и пространственных отношений и приближаясь к ответу через плотные пространственные вознаграждения. SpatialThinker включает два ключевых компонента: (1) конвейер синтеза данных, который генерирует STVQA-7K — высококачественный набор данных для пространственного визуального вопроса-ответа (VQA), и (2) онлайн-обучение с подкреплением с многоцелевым плотным пространственным вознаграждением, обеспечивающим пространственное обоснование. SpatialThinker-7B превосходит методы тонкой настройки с учителем и базовый подход с разреженным RL по показателям пространственного понимания и реальным бенчмаркам VQA, почти удваивая прирост базовой модели по сравнению с разреженным RL и опережая GPT-4o. Эти результаты демонстрируют эффективность сочетания пространственного контроля с выровненными по вознаграждению рассуждениями для обеспечения надежного 3D-пространственного понимания при ограниченных данных и продвижения MLLM к уровню человеческого визуального мышления.
English
Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language tasks, but they continue to struggle with spatial understanding. Existing spatial MLLMs often rely on explicit 3D inputs or architecture-specific modifications, and remain constrained by large-scale datasets or sparse supervision. To address these limitations, we introduce SpatialThinker, a 3D-aware MLLM trained with RL to integrate structured spatial grounding with multi-step reasoning. The model simulates human-like spatial perception by constructing a scene graph of task-relevant objects and spatial relations, and reasoning towards an answer via dense spatial rewards. SpatialThinker consists of two key contributions: (1) a data synthesis pipeline that generates STVQA-7K, a high-quality spatial VQA dataset, and (2) online RL with a multi-objective dense spatial reward enforcing spatial grounding. SpatialThinker-7B outperforms supervised fine-tuning and the sparse RL baseline on spatial understanding and real-world VQA benchmarks, nearly doubling the base-model gain compared to sparse RL, and surpassing GPT-4o. These results showcase the effectiveness of combining spatial supervision with reward-aligned reasoning in enabling robust 3D spatial understanding with limited data and advancing MLLMs towards human-level visual reasoning.
PDF132December 1, 2025