MASS: Bewegingsbewuste Spatiotemporele Verankering voor Natuurkundig Redeneren en Begrip in Visueel-Taalmodellen
MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models
November 23, 2025
Auteurs: Xiyang Wu, Zongxia Li, Jihui Jin, Guangyao Shi, Gouthaman KV, Vishnu Raj, Nilotpal Sinha, Jingxi Chen, Fan Du, Dinesh Manocha
cs.AI
Samenvatting
Vision Language Models (VLMs) presteren goed op standaard videotaken, maar hebben moeite met fysica-gestuurd redeneren dat betrekking heeft op bewegingsdynamiek en ruimtelijke interacties. Deze beperking vermindert hun vermogen om echte of door AI gegenereerde content (AIGC) video's te interpreteren en fysiek consistente content te genereren. Wij presenteren een aanpak die deze kloof dicht door contextuele aanwijzingen uit de fysieke wereld te vertalen naar interpreteerbare representaties die zijn afgestemd op de perceptie, het begrip en het redeneervermogen van VLMs. Wij introduceren MASS-Bench, een uitgebreide benchmark bestaande uit 4.350 real-world en AIGC video's en 8.361 vrije-vorm video-vraag-antwoordparen, gericht op fysica-gerelateerde begriptaken, met gedetailleerde annotaties inclusief visuele detecties, sub-segment grounding en volledige-sequentie 3D-bewegingtracking van entiteiten. Verder presenteren wij MASS, een model-agnostische methode die ruimtelijk-temporele signalen injecteert in de VLM-taalspace via op diepte gebaseerde 3D-codering en visuele grounding, gekoppeld aan een bewegingstracker voor objectdynamiek. Om cross-modale afstemming en redenering te versterken, passen wij reinforcement fine-tuning toe. Experimenten en ablatiestudies tonen aan dat onze verfijnde VLMs vergelijkbare en grotere baseline-modellen, evenals eerdere state-of-the-art modellen, met respectievelijk 8.7% en 6.0% overtreffen, waarbij zij prestaties bereiken die vergelijkbaar zijn met closed-source SoTA VLMs zoals Gemini-2.5-Flash op het gebied van fysica-redenering en -begrip. Deze resultaten valideren de effectiviteit van onze aanpak.
English
Vision Language Models (VLMs) perform well on standard video tasks but struggle with physics-driven reasoning involving motion dynamics and spatial interactions. This limitation reduces their ability to interpret real or AI-generated content (AIGC) videos and to generate physically consistent content. We present an approach that addresses this gap by translating physical-world context cues into interpretable representations aligned with VLMs' perception, comprehension, and reasoning. We introduce MASS-Bench, a comprehensive benchmark consisting of 4,350 real-world and AIGC videos and 8,361 free-form video question-answering pairs focused on physics-related comprehension tasks, with detailed annotations including visual detections, sub-segment grounding, and full-sequence 3D motion tracking of entities. We further present MASS, a model-agnostic method that injects spatial-temporal signals into the VLM language space via depth-based 3D encoding and visual grounding, coupled with a motion tracker for object dynamics. To strengthen cross-modal alignment and reasoning, we apply reinforcement fine-tuning. Experiments and ablations show that our refined VLMs outperform comparable and larger baselines, as well as prior state-of-the-art models, by 8.7% and 6.0%, achieving performance comparable to close-source SoTA VLMs such as Gemini-2.5-Flash on physics reasoning and comprehension. These results validate the effectiveness of our approach.