MASS: Fundamentación Espacio-Temporal Consciente del Movimiento para el Razonamiento y la Comprensión de la Física en Modelos de Visión y Lenguaje
MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models
November 23, 2025
Autores: Xiyang Wu, Zongxia Li, Jihui Jin, Guangyao Shi, Gouthaman KV, Vishnu Raj, Nilotpal Sinha, Jingxi Chen, Fan Du, Dinesh Manocha
cs.AI
Resumen
Los Modelos de Lenguaje Visual (VLM) tienen un buen rendimiento en tareas de video estándar, pero presentan dificultades en el razonamiento basado en la física que involucra dinámicas de movimiento e interacciones espaciales. Esta limitación reduce su capacidad para interpretar videos de contenido real o generado por IA (AIGC) y para generar contenido físicamente coherente. Presentamos un enfoque que aborda esta brecha traduciendo las claves contextuales del mundo físico en representaciones interpretables alineadas con la percepción, comprensión y razonamiento de los VLM. Introducimos MASS-Bench, un benchmark integral que consta de 4.350 videos del mundo real y AIGC, y 8.361 pares de preguntas y respuestas de video de formato libre centrados en tareas de comprensión relacionadas con la física, con anotaciones detalladas que incluyen detecciones visuales, anclaje de subsegmentos y seguimiento de movimiento 3D de entidades en secuencias completas. Además, presentamos MASS, un método agnóstico al modelo que inyecta señales espacio-temporales en el espacio lingüístico del VLM mediante codificación 3D basada en profundidad y anclaje visual, junto con un rastreador de movimiento para las dinámicas de los objetos. Para fortalecer la alineación y el razonamiento multimodal, aplicamos un ajuste fino por refuerzo. Los experimentos y ablaciones muestran que nuestros VLM refinados superan a líneas base comparables y más grandes, así como a modelos anteriores de última generación, en un 8.7% y 6.0%, logrando un rendimiento comparable al de VLM de última generación de código cerrado como Gemini-2.5-Flash en razonamiento y comprensión física. Estos resultados validan la efectividad de nuestro enfoque.
English
Vision Language Models (VLMs) perform well on standard video tasks but struggle with physics-driven reasoning involving motion dynamics and spatial interactions. This limitation reduces their ability to interpret real or AI-generated content (AIGC) videos and to generate physically consistent content. We present an approach that addresses this gap by translating physical-world context cues into interpretable representations aligned with VLMs' perception, comprehension, and reasoning. We introduce MASS-Bench, a comprehensive benchmark consisting of 4,350 real-world and AIGC videos and 8,361 free-form video question-answering pairs focused on physics-related comprehension tasks, with detailed annotations including visual detections, sub-segment grounding, and full-sequence 3D motion tracking of entities. We further present MASS, a model-agnostic method that injects spatial-temporal signals into the VLM language space via depth-based 3D encoding and visual grounding, coupled with a motion tracker for object dynamics. To strengthen cross-modal alignment and reasoning, we apply reinforcement fine-tuning. Experiments and ablations show that our refined VLMs outperform comparable and larger baselines, as well as prior state-of-the-art models, by 8.7% and 6.0%, achieving performance comparable to close-source SoTA VLMs such as Gemini-2.5-Flash on physics reasoning and comprehension. These results validate the effectiveness of our approach.