ChatPaper.aiChatPaper

MASS: Основанное на движении пространственно-временное обоснование для физических рассуждений и понимания в визуально-языковых моделях

MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models

November 23, 2025
Авторы: Xiyang Wu, Zongxia Li, Jihui Jin, Guangyao Shi, Gouthaman KV, Vishnu Raj, Nilotpal Sinha, Jingxi Chen, Fan Du, Dinesh Manocha
cs.AI

Аннотация

Модели "визуальный язык" (VLM) демонстрируют хорошие результаты в стандартных видеозадачах, но испытывают трудности с физически обоснованными рассуждениями, включающими динамику движения и пространственные взаимодействия. Это ограничение снижает их способность интерпретировать видео с реальным или созданным искусственным интеллектом контентом (AIGC), а также генерировать физически согласованный контент. Мы представляем подход, который устраняет этот пробел путем перевода контекстных сигналов физического мира в интерпретируемые представления, согласованные с восприятием, пониманием и логическими рассуждениями VLM. Мы представляем MASS-Bench — комплексный бенчмарк, состоящий из 4350 видеороликов реального мира и AIGC, а также 8361 пары "вопрос-ответ" свободной формы, сфокусированных на задачах понимания, связанных с физикой, с детальными аннотациями, включающими визуальное детектирование, локализацию в подсегментах и полное 3D-трекинг движения сущностей на протяжении всей последовательности. Далее мы представляем MASS — модель-агностичный метод, который внедряет пространственно-временные сигналы в языковое пространство VLM посредством 3D-кодирования на основе глубины и визуальной привязки, в сочетании с трекером движения для анализа динамики объектов. Для усиления межмодального согласования и логического вывода мы применяем тонкую настройку с подкреплением. Эксперименты и абляционные исследования показывают, что наши доработанные VLM превосходят сравнимые и более крупные базовые модели, а также предыдущие передовые модели, на 8,7% и 6,0% соответственно, достигая производительности, сопоставимой с закрытыми передовыми VLM, такими как Gemini-2.5-Flash, в задачах физических рассуждений и понимания. Эти результаты подтверждают эффективность нашего подхода.
English
Vision Language Models (VLMs) perform well on standard video tasks but struggle with physics-driven reasoning involving motion dynamics and spatial interactions. This limitation reduces their ability to interpret real or AI-generated content (AIGC) videos and to generate physically consistent content. We present an approach that addresses this gap by translating physical-world context cues into interpretable representations aligned with VLMs' perception, comprehension, and reasoning. We introduce MASS-Bench, a comprehensive benchmark consisting of 4,350 real-world and AIGC videos and 8,361 free-form video question-answering pairs focused on physics-related comprehension tasks, with detailed annotations including visual detections, sub-segment grounding, and full-sequence 3D motion tracking of entities. We further present MASS, a model-agnostic method that injects spatial-temporal signals into the VLM language space via depth-based 3D encoding and visual grounding, coupled with a motion tracker for object dynamics. To strengthen cross-modal alignment and reasoning, we apply reinforcement fine-tuning. Experiments and ablations show that our refined VLMs outperform comparable and larger baselines, as well as prior state-of-the-art models, by 8.7% and 6.0%, achieving performance comparable to close-source SoTA VLMs such as Gemini-2.5-Flash on physics reasoning and comprehension. These results validate the effectiveness of our approach.
PDF62February 7, 2026