VLM4D: На пути к пространственно-временной осведомленности в моделях "визуальный язык"

Аннотация

Модели, объединяющие зрение и язык (Vision Language Models, VLMs), продемонстрировали впечатляющие способности в интеграции лингвистического и визуального мышления, но остаются фундаментально ограниченными в понимании динамических пространственно-временных взаимодействий. Люди без усилий отслеживают и анализируют движения объектов, их вращение и изменения перспективы — способности, которые критически важны для устойчивого понимания динамического реального мира, но которых заметно не хватает современным VLMs. В данной работе мы представляем VLM4D — первый бенчмарк, специально разработанный для оценки пространственно-временных способностей VLMs. Наш бенчмарк включает разнообразные реальные и синтетические видеоролики, сопровождаемые тщательно подобранными вопросами и ответами, акцентирующими внимание на поступательном и вращательном движении, осознании перспективы и непрерывности движения. В результате всесторонней оценки современных открытых и закрытых VLMs мы выявили значительные пробелы в производительности по сравнению с человеческими базовыми показателями, что подчеркивает фундаментальные недостатки существующих моделей. Подробный анализ показывает, что VLMs особенно испытывают трудности с интеграцией множественных визуальных сигналов и поддержанием временной согласованности. Мы также исследуем перспективные направления, такие как использование реконструкции 4D-полей признаков и целенаправленной пространственно-временной дообучения с учителем, демонстрируя их эффективность в улучшении пространственно-временного понимания. Наша работа направлена на стимулирование более глубокого изучения улучшения пространственной и временной привязки VLMs, прокладывая путь к более мощному и надежному визуальному интеллекту для динамических сред.

English

Vision language models (VLMs) have shown remarkable capabilities in integrating linguistic and visual reasoning but remain fundamentally limited in understanding dynamic spatiotemporal interactions. Humans effortlessly track and reason about object movements, rotations, and perspective shifts-abilities essential for robust dynamic real-world understanding yet notably lacking in current VLMs. In this paper, we introduce VLM4D, the first benchmark specifically designed to evaluate the spatiotemporal reasoning capabilities of VLMs. Our benchmark comprises diverse real-world and synthetic videos accompanied by carefully curated question-answer pairs emphasizing translational and rotational motions, perspective awareness, and motion continuity. Through comprehensive evaluations of state-of-the-art open and closed-source VLMs, we identify significant performance gaps compared to human baselines, highlighting fundamental deficiencies in existing models. Extensive analysis reveals that VLMs struggle particularly with integrating multiple visual cues and maintaining temporal coherence. We further explore promising directions, such as leveraging 4D feature field reconstruction and targeted spatiotemporal supervised fine-tuning, demonstrating their effectiveness in enhancing spatiotemporal comprehension. Our work aims to encourage deeper exploration into improving VLMs' spatial and temporal grounding, paving the way towards more capable and reliable visual intelligence for dynamic environments.

VLM4D: На пути к пространственно-временной осведомленности в моделях "визуальный язык"

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

Аннотация

Support