MASS: Ancoragem Espaço-Temporal Consciente do Movimento para Raciocínio e Compreensão da Física em Modelos de Visão e Linguagem

Resumo

Os Modelos de Linguagem Visual (VLMs) apresentam bom desempenho em tarefas padrão de vídeo, mas lutam com raciocínios baseados em física que envolvem dinâmicas de movimento e interações espaciais. Esta limitação reduz a sua capacidade de interpretar vídeos de conteúdo real ou gerado por IA (AIGC) e de gerar conteúdos fisicamente consistentes. Apresentamos uma abordagem que resolve esta lacuna traduzindo pistas de contexto do mundo físico em representações interpretáveis alinhadas com a perceção, compreensão e raciocínio dos VLMs. Introduzimos o MASS-Bench, um benchmark abrangente constituído por 4.350 vídeos do mundo real e AIGC e 8.361 pares de perguntas e respostas de vídeo de formato livre, focados em tarefas de compreensão relacionadas com física, com anotações detalhadas incluindo deteções visuais, ancoragem de sub-segmentos e rastreamento de movimento 3D de entidades para sequências completas. Apresentamos ainda o MASS, um método agnóstico ao modelo que injeta sinais espaço-temporais no espaço linguístico do VLM através de codificação 3D baseada em profundidade e ancoragem visual, aliado a um rastreador de movimento para dinâmicas de objetos. Para reforçar o alinhamento e raciocínio multimodal, aplicamos *fine-tuning* por reforço. Experiências e *ablations* mostram que os nossos VLMs refinados superam *baselines* comparáveis e maiores, bem como modelos anteriores do estado da arte, em 8,7% e 6,0%, alcançando um desempenho comparável a VLMs SoTA de código fechado, como o Gemini-2.5-Flash, em raciocínio e compreensão de física. Estes resultados validam a eficácia da nossa abordagem.

English

Vision Language Models (VLMs) perform well on standard video tasks but struggle with physics-driven reasoning involving motion dynamics and spatial interactions. This limitation reduces their ability to interpret real or AI-generated content (AIGC) videos and to generate physically consistent content. We present an approach that addresses this gap by translating physical-world context cues into interpretable representations aligned with VLMs' perception, comprehension, and reasoning. We introduce MASS-Bench, a comprehensive benchmark consisting of 4,350 real-world and AIGC videos and 8,361 free-form video question-answering pairs focused on physics-related comprehension tasks, with detailed annotations including visual detections, sub-segment grounding, and full-sequence 3D motion tracking of entities. We further present MASS, a model-agnostic method that injects spatial-temporal signals into the VLM language space via depth-based 3D encoding and visual grounding, coupled with a motion tracker for object dynamics. To strengthen cross-modal alignment and reasoning, we apply reinforcement fine-tuning. Experiments and ablations show that our refined VLMs outperform comparable and larger baselines, as well as prior state-of-the-art models, by 8.7% and 6.0%, achieving performance comparable to close-source SoTA VLMs such as Gemini-2.5-Flash on physics reasoning and comprehension. These results validate the effectiveness of our approach.

MASS: Ancoragem Espaço-Temporal Consciente do Movimento para Raciocínio e Compreensão da Física em Modelos de Visão e Linguagem

MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models

Resumo

Support