MASS: Ancoragem Espaço-Temporal Consciente do Movimento para Raciocínio e Compreensão da Física em Modelos de Visão e Linguagem
MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models
November 23, 2025
Autores: Xiyang Wu, Zongxia Li, Jihui Jin, Guangyao Shi, Gouthaman KV, Vishnu Raj, Nilotpal Sinha, Jingxi Chen, Fan Du, Dinesh Manocha
cs.AI
Resumo
Os Modelos de Linguagem Visual (VLMs) apresentam bom desempenho em tarefas padrão de vídeo, mas lutam com raciocínios baseados em física que envolvem dinâmicas de movimento e interações espaciais. Esta limitação reduz a sua capacidade de interpretar vídeos de conteúdo real ou gerado por IA (AIGC) e de gerar conteúdos fisicamente consistentes. Apresentamos uma abordagem que resolve esta lacuna traduzindo pistas de contexto do mundo físico em representações interpretáveis alinhadas com a perceção, compreensão e raciocínio dos VLMs. Introduzimos o MASS-Bench, um benchmark abrangente constituído por 4.350 vídeos do mundo real e AIGC e 8.361 pares de perguntas e respostas de vídeo de formato livre, focados em tarefas de compreensão relacionadas com física, com anotações detalhadas incluindo deteções visuais, ancoragem de sub-segmentos e rastreamento de movimento 3D de entidades para sequências completas. Apresentamos ainda o MASS, um método agnóstico ao modelo que injeta sinais espaço-temporais no espaço linguístico do VLM através de codificação 3D baseada em profundidade e ancoragem visual, aliado a um rastreador de movimento para dinâmicas de objetos. Para reforçar o alinhamento e raciocínio multimodal, aplicamos *fine-tuning* por reforço. Experiências e *ablations* mostram que os nossos VLMs refinados superam *baselines* comparáveis e maiores, bem como modelos anteriores do estado da arte, em 8,7% e 6,0%, alcançando um desempenho comparável a VLMs SoTA de código fechado, como o Gemini-2.5-Flash, em raciocínio e compreensão de física. Estes resultados validam a eficácia da nossa abordagem.
English
Vision Language Models (VLMs) perform well on standard video tasks but struggle with physics-driven reasoning involving motion dynamics and spatial interactions. This limitation reduces their ability to interpret real or AI-generated content (AIGC) videos and to generate physically consistent content. We present an approach that addresses this gap by translating physical-world context cues into interpretable representations aligned with VLMs' perception, comprehension, and reasoning. We introduce MASS-Bench, a comprehensive benchmark consisting of 4,350 real-world and AIGC videos and 8,361 free-form video question-answering pairs focused on physics-related comprehension tasks, with detailed annotations including visual detections, sub-segment grounding, and full-sequence 3D motion tracking of entities. We further present MASS, a model-agnostic method that injects spatial-temporal signals into the VLM language space via depth-based 3D encoding and visual grounding, coupled with a motion tracker for object dynamics. To strengthen cross-modal alignment and reasoning, we apply reinforcement fine-tuning. Experiments and ablations show that our refined VLMs outperform comparable and larger baselines, as well as prior state-of-the-art models, by 8.7% and 6.0%, achieving performance comparable to close-source SoTA VLMs such as Gemini-2.5-Flash on physics reasoning and comprehension. These results validate the effectiveness of our approach.