Обучение рассуждениям в 4D: Динамическое пространственное понимание для визуально-языковых моделей
Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
December 23, 2025
Авторы: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi
cs.AI
Аннотация
Модели «визуальный язык» (VLM) демонстрируют превосходные результаты в задачах общего понимания, но остаются слабыми в области динамического пространственного мышления (DSR), то есть в рассуждениях об эволюции геометрии объектов и их взаимосвязей в 3D-пространстве с течением времени. Это во многом обусловлено дефицитом масштабируемых обучающих ресурсов, учитывающих 4D-информацию. Чтобы устранить этот разрыв на уровнях набора данных, бенчмарка и модели, мы представляем DSR Suite. Во-первых, мы предлагаем автоматизированный конвейер, который генерирует пары «вопрос-ответ» с множественным выбором из видеороликов реального мира для задач DSR. Используя современные базовые модели компьютерного зрения, конвейер извлекает богатую геометрическую и динамическую информацию, включая позы камер, локальные облака точек, маски объектов, ориентации и 3D-траектории. Эти геометрические подсказки позволяют создать DSR-Train для обучения и доработанный экспертами DSR-Bench для оценки. По сравнению с предыдущими работами наши данные делают акцент на (i) видеоисточниках из реального мира, (ii) требованиях к 3D-информации на уровне объектов и сцены, (iii) преобразованиях точки обзора, (iv) взаимодействиях множества объектов и (v) детальных, процедурных ответах. Помимо данных, мы предлагаем облегченный модуль выбора геометрии (GSM) для бесшовной интеграции геометрических априорных знаний в VLM. Этот модуль конденсирует семантику вопроса и извлекает релевантные для вопроса знания из предварительно обученных 4D-реконструкционных моделей в компактный набор геометрических токенов. Такая целенаправленная выборка позволяет избежать перегрузки модели нерелевантной информацией. Эксперименты показывают, что интеграция DSR-Train и GSM в модель Qwen2.5-VL-7B значительно повышает её способность к динамическому пространственному мышлению, сохраняя при этом точность на бенчмарках общего понимания видео.
English
Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.