4D 추론 학습: 시각 언어 모델을 위한 동적 공간 이해
Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
December 23, 2025
저자: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi
cs.AI
초록
비전-언어 모델(VLM)은 일반적인 이해 능력에서는 뛰어나지만, 3D 공간에서 시간에 따른 객체 기하학 및 관계의 변화를 추론하는 동적 공간 추론(DSR)에서는 여전히 취약합니다. 이는 주로 확장 가능한 4D 인지 훈련 자원의 부족 때문입니다. 데이터셋, 벤치마크, 모델 측면의 이러한 격차를 해소하기 위해 우리는 DSR Suite를 소개합니다. 먼저, 실제 환경의 비디오로부터 DSR용 객관식 질문-답변 쌍을 자동 생성하는 파이프라인을 제안합니다. 현대적인 비전 기초 모델을 활용하여 이 파이프라인은 카메라 포즈, 로컬 포인트 클라우드, 객체 마스크, 방향, 3D 궤적을 포함한 풍부한 기하학적 및 운동 정보를 추출합니다. 이러한 기하학적 단서를 바탕으로 학습용 DSR-Train과 인간이 추가로 정제한 평가용 DSR-Bench를 구축합니다. 기존 연구와 비교했을 때, 우리의 데이터는 (i) 실제 환경의 비디오 출처, (ii) 객체 및 장면 수준의 3D 요구사항, (iii) 시점 변환, (iv) 다중 객체 상호작용, (v) 세분화된 절차적 답변을 강조합니다. 데이터를 넘어, 우리는 기하학적 사전 지식을 VLM에 원활하게 통합하기 위한 경량 기하학 선택 모듈(GSM)을 제안합니다. GSM은 질문 의미를 응축하고 사전 훈련된 4D 재구성 사전 지식에서 질문과 관련된 지식을 추출하여 간결한 기하학 토큰 집합으로 만듭니다. 이렇게 대상에 맞게 추출함으로써 관련 없는 지식으로 모델에 부담을 주는 것을 피합니다. 실험 결과, Qwen2.5-VL-7B에 DSR-Train과 GSM을 통합하면 일반 비디오 이해 벤치마크의 정확도를 유지하면서도 동적 공간 추론 능력이 크게 향상되는 것으로 나타났습니다.
English
Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.