ChatPaper.aiChatPaper

4次元の推論学習:視覚言語モデルのための動的空間理解

Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

December 23, 2025
著者: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi
cs.AI

要旨

視覚言語モデル(VLM)は一般的な理解において優れる一方、動的空間推論(DSR)、すなわち3D空間内における物体の形状と関係性の時間的変化に関する推論については、依然として弱点があります。これは主に、スケーラブルな4D対応の学習リソースが不足していることに起因します。このデータセット、ベンチマーク、モデルにわたるギャップを埋めるため、我々はDSR Suiteを提案します。まず、実世界の動画からDSR向けの多肢選択式質問応答ペアを自動生成するパイプラインを構築しました。現代の視覚基盤モデルを活用し、カメラ姿勢、局所点群、物体マスク、方向、3D軌道といった豊富な幾何学情報と運動情報を抽出します。これらの幾何学的手がかりにより、学習用のDSR-Trainと、さらに人間による精緻化を経た評価用のDSR-Benchを構築しました。従来研究と比較して、我々のデータは以下の点を重視しています:(i) 実世界の動画ソース、(ii) 物体レベルおよびシーンレベルの3D要件、(iii) 視点変換、(iv) 複数物体間の相互作用、(v) きめ細かい手続き的な回答。データに加えて、幾何学的事前情報をVLMにシームレスに統合する軽量なGeometry Selection Module(GSM)を提案します。これは質問の意味を凝縮し、事前学習済みの4D再構成事前情報から質問に関連する知識を抽出し、コンパクトな幾何学トークンの集合として表現します。この標的化された抽出により、無関係な知識によってモデルが圧倒されるのを回避します。実験により、Qwen2.5-VL-7BにDSR-TrainとGSMを統合することで、一般的な動画理解ベンチマークにおける精度を維持しつつ、その動的空間推論能力が大幅に向上することが示されました。
English
Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.
PDF402December 26, 2025