MASS: 시각-언어 모델의 물리 추론 및 이해를 위한 운동 인식 시공간 기반화
MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models
November 23, 2025
저자: Xiyang Wu, Zongxia Li, Jihui Jin, Guangyao Shi, Gouthaman KV, Vishnu Raj, Nilotpal Sinha, Jingxi Chen, Fan Du, Dinesh Manocha
cs.AI
초록
비전 언어 모델(VLM)은 표준 비디오 작업에서 우수한 성능을 보이지만, 운동 역학 및 공간 상호작용을 포함하는 물리 기반 추론에는 어려움을 겪습니다. 이러한 한계는 실제 또는 AI 생성 콘텐츠(AIGC) 비디오를 해석하고 물리적으로 일관된 콘텐츠를 생성하는 VLM의 능력을 저하시킵니다. 본 연구는 물리적 세계의 상황 맥락 단서를 VLM의 인지, 이해, 추론 능력에 부합하는 해석 가능한 표현으로 변환하여 이러한 격차를 해결하는 접근법을 제시합니다. 우리는 물리적 이해 작업에 초점을 맞춘 4,350개의 실제 세계 및 AIGC 비디오와 8,361개의 자유 형식 비디오 질의응답 쌍으로 구성된 포괄적인 벤치마크인 MASS-Bench를 소개합니다. 여기에는 시각적 감지, 하위 세그먼트 그라운딩, 개체에 대한 전체 시퀀스 3D 모션 추적을 포함한 상세 주석이 포함됩니다. 또한 깊이 기반 3D 인코딩과 시각적 그라운딩을 통해 시공간 신호를 VLM 언어 공간에 주입하고, 객체 역학을 위한 모션 트래커와 결합한 모델 불문 방법인 MASS를 제시합니다. 교차 모달 정렬 및 추론 능력을 강화하기 위해 강화 미세 조정을 적용합니다. 실험 및 애블레이션 결과, 우리의 정제된 VLM은 유사 및 더 큰 규모의 베이스라인과 기존 최첨단 모델을 각각 8.7%, 6.0% 능가하며, Gemini-2.5-Flash와 같은 폐쇄형 최첨단 VLM에 버금가는 물리 추론 및 이해 성능을 달성했습니다. 이러한 결과는 우리 접근법의 효과를 입증합니다.
English
Vision Language Models (VLMs) perform well on standard video tasks but struggle with physics-driven reasoning involving motion dynamics and spatial interactions. This limitation reduces their ability to interpret real or AI-generated content (AIGC) videos and to generate physically consistent content. We present an approach that addresses this gap by translating physical-world context cues into interpretable representations aligned with VLMs' perception, comprehension, and reasoning. We introduce MASS-Bench, a comprehensive benchmark consisting of 4,350 real-world and AIGC videos and 8,361 free-form video question-answering pairs focused on physics-related comprehension tasks, with detailed annotations including visual detections, sub-segment grounding, and full-sequence 3D motion tracking of entities. We further present MASS, a model-agnostic method that injects spatial-temporal signals into the VLM language space via depth-based 3D encoding and visual grounding, coupled with a motion tracker for object dynamics. To strengthen cross-modal alignment and reasoning, we apply reinforcement fine-tuning. Experiments and ablations show that our refined VLMs outperform comparable and larger baselines, as well as prior state-of-the-art models, by 8.7% and 6.0%, achieving performance comparable to close-source SoTA VLMs such as Gemini-2.5-Flash on physics reasoning and comprehension. These results validate the effectiveness of our approach.