MASS: Riconoscimento Spazio-Temporale Consapevole del Movimento per il Ragionamento Fisico e la Comprensione nei Modelli Visione-Linguaggio
MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models
November 23, 2025
Autori: Xiyang Wu, Zongxia Li, Jihui Jin, Guangyao Shi, Gouthaman KV, Vishnu Raj, Nilotpal Sinha, Jingxi Chen, Fan Du, Dinesh Manocha
cs.AI
Abstract
I modelli linguistici visivi (VLM) ottengono buone prestazioni nei compiti video standard, ma faticano nel ragionamento basato sulla fisica che coinvolge la dinamica del moto e le interazioni spaziali. Questa limitazione riduce la loro capacità di interpretare video di contenuti reali o generati dall'IA (AIGC) e di generare contenuti fisicamente coerenti. Presentiamo un approccio che affronta questa lacuna traducendo gli indizi contestuali del mondo fisico in rappresentazioni interpretabili allineate con la percezione, la comprensione e il ragionamento dei VLM. Introduciamo MASS-Bench, un benchmark completo composto da 4.350 video del mondo reale e AIGC e 8.361 coppie libere di domanda-risposta video incentrate su compiti di comprensione legati alla fisica, con annotazioni dettagliate che includono rilevamenti visivi, grounding di sotto-segmenti e tracciamento 3D del moto a sequenza completa delle entità. Presentiamo inoltre MASS, un metodo agnostico al modello che inietta segnali spazio-temporali nello spazio linguistico del VLM tramite codifica 3D basata sulla profondità e grounding visivo, abbinato a un tracker del moto per la dinamica degli oggetti. Per rafforzare l'allineamento e il ragionamento cross-modale, applichiamo un fine-tuning per rinforzo. Esperimenti e ablazioni dimostrano che i nostri VLM raffinati superano le baseline comparabili e più grandi, nonché i precedenti modelli state-of-the-art, rispettivamente dell'8,7% e del 6,0%, raggiungendo prestazioni paragonabili a VLM SoTA closed-source come Gemini-2.5-Flash nel ragionamento e nella comprensione fisica. Questi risultati convalidano l'efficacia del nostro approccio.
English
Vision Language Models (VLMs) perform well on standard video tasks but struggle with physics-driven reasoning involving motion dynamics and spatial interactions. This limitation reduces their ability to interpret real or AI-generated content (AIGC) videos and to generate physically consistent content. We present an approach that addresses this gap by translating physical-world context cues into interpretable representations aligned with VLMs' perception, comprehension, and reasoning. We introduce MASS-Bench, a comprehensive benchmark consisting of 4,350 real-world and AIGC videos and 8,361 free-form video question-answering pairs focused on physics-related comprehension tasks, with detailed annotations including visual detections, sub-segment grounding, and full-sequence 3D motion tracking of entities. We further present MASS, a model-agnostic method that injects spatial-temporal signals into the VLM language space via depth-based 3D encoding and visual grounding, coupled with a motion tracker for object dynamics. To strengthen cross-modal alignment and reasoning, we apply reinforcement fine-tuning. Experiments and ablations show that our refined VLMs outperform comparable and larger baselines, as well as prior state-of-the-art models, by 8.7% and 6.0%, achieving performance comparable to close-source SoTA VLMs such as Gemini-2.5-Flash on physics reasoning and comprehension. These results validate the effectiveness of our approach.