VLM4D: На пути к пространственно-временной осведомленности в моделях "визуальный язык"
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models
August 4, 2025
Авторы: Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision Language Models, VLMs), продемонстрировали впечатляющие способности в интеграции лингвистического и визуального мышления, но остаются фундаментально ограниченными в понимании динамических пространственно-временных взаимодействий. Люди без усилий отслеживают и анализируют движения объектов, их вращение и изменения перспективы — способности, которые критически важны для устойчивого понимания динамического реального мира, но которых заметно не хватает современным VLMs. В данной работе мы представляем VLM4D — первый бенчмарк, специально разработанный для оценки пространственно-временных способностей VLMs. Наш бенчмарк включает разнообразные реальные и синтетические видеоролики, сопровождаемые тщательно подобранными вопросами и ответами, акцентирующими внимание на поступательном и вращательном движении, осознании перспективы и непрерывности движения. В результате всесторонней оценки современных открытых и закрытых VLMs мы выявили значительные пробелы в производительности по сравнению с человеческими базовыми показателями, что подчеркивает фундаментальные недостатки существующих моделей. Подробный анализ показывает, что VLMs особенно испытывают трудности с интеграцией множественных визуальных сигналов и поддержанием временной согласованности. Мы также исследуем перспективные направления, такие как использование реконструкции 4D-полей признаков и целенаправленной пространственно-временной дообучения с учителем, демонстрируя их эффективность в улучшении пространственно-временного понимания. Наша работа направлена на стимулирование более глубокого изучения улучшения пространственной и временной привязки VLMs, прокладывая путь к более мощному и надежному визуальному интеллекту для динамических сред.
English
Vision language models (VLMs) have shown remarkable capabilities in
integrating linguistic and visual reasoning but remain fundamentally limited in
understanding dynamic spatiotemporal interactions. Humans effortlessly track
and reason about object movements, rotations, and perspective shifts-abilities
essential for robust dynamic real-world understanding yet notably lacking in
current VLMs. In this paper, we introduce VLM4D, the first benchmark
specifically designed to evaluate the spatiotemporal reasoning capabilities of
VLMs. Our benchmark comprises diverse real-world and synthetic videos
accompanied by carefully curated question-answer pairs emphasizing
translational and rotational motions, perspective awareness, and motion
continuity. Through comprehensive evaluations of state-of-the-art open and
closed-source VLMs, we identify significant performance gaps compared to human
baselines, highlighting fundamental deficiencies in existing models. Extensive
analysis reveals that VLMs struggle particularly with integrating multiple
visual cues and maintaining temporal coherence. We further explore promising
directions, such as leveraging 4D feature field reconstruction and targeted
spatiotemporal supervised fine-tuning, demonstrating their effectiveness in
enhancing spatiotemporal comprehension. Our work aims to encourage deeper
exploration into improving VLMs' spatial and temporal grounding, paving the way
towards more capable and reliable visual intelligence for dynamic environments.