MASS: 視覚言語モデルにおける物理的推論と理解のためのモーション認識時空間グラウンディング
MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models
November 23, 2025
著者: Xiyang Wu, Zongxia Li, Jihui Jin, Guangyao Shi, Gouthaman KV, Vishnu Raj, Nilotpal Sinha, Jingxi Chen, Fan Du, Dinesh Manocha
cs.AI
要旨
視覚言語モデル(VLM)は標準的な映像タスクでは良好な性能を示すが、運動力学や空間的相互作用を含む物理学的推論には課題を抱えている。この制約は、実写またはAI生成コンテンツ(AIGC)映像の解釈や、物理的に一貫性のあるコンテンツの生成能力を低下させる。本研究では、物理世界の文脈手がかりをVLMの知覚・理解・推論に整合した解釈可能な表現へ変換する手法を提案する。具体的には、MASS-Benchを導入する。これは4,350本の実写・AIGC映像と8,361組の自由形式映像質問応答ペアから構成される物理関連理解タスクに特化した総合ベンチマークであり、視覚的検出、部分区間の接地、エンティティの全シーケンスにわたる3D運動追跡を含む詳細な注釈を備える。さらに、深度ベース3D符号化と視覚的接地による時空間信号をVLMの言語空間に注入し、物体動態追跡機能を統合したモデル非依存手法MASSを提案する。クロスモーダル対応と推論能力強化のため、強化学習ファインチューニングを適用する。実験とアブレーション研究により、改良したVLMが同等規模および大規模ベースライン、従来の最先端モデルをそれぞれ8.7%、6.0%上回り、Gemini-2.5-FlashなどのクローズドソースSoTA VLMに匹敵する物理推論・理解性能を達成することを実証する。これらの結果は本手法の有効性を裏付けるものである。
English
Vision Language Models (VLMs) perform well on standard video tasks but struggle with physics-driven reasoning involving motion dynamics and spatial interactions. This limitation reduces their ability to interpret real or AI-generated content (AIGC) videos and to generate physically consistent content. We present an approach that addresses this gap by translating physical-world context cues into interpretable representations aligned with VLMs' perception, comprehension, and reasoning. We introduce MASS-Bench, a comprehensive benchmark consisting of 4,350 real-world and AIGC videos and 8,361 free-form video question-answering pairs focused on physics-related comprehension tasks, with detailed annotations including visual detections, sub-segment grounding, and full-sequence 3D motion tracking of entities. We further present MASS, a model-agnostic method that injects spatial-temporal signals into the VLM language space via depth-based 3D encoding and visual grounding, coupled with a motion tracker for object dynamics. To strengthen cross-modal alignment and reasoning, we apply reinforcement fine-tuning. Experiments and ablations show that our refined VLMs outperform comparable and larger baselines, as well as prior state-of-the-art models, by 8.7% and 6.0%, achieving performance comparable to close-source SoTA VLMs such as Gemini-2.5-Flash on physics reasoning and comprehension. These results validate the effectiveness of our approach.