ST-VLM: Кинематическая настройка инструкций для пространственно-временного анализа в визуально-языковых моделях
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models
March 25, 2025
Авторы: Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim
cs.AI
Аннотация
Пространственно-временное рассуждение играет ключевую роль в понимании реальных сред в различных областях, таких как автономное вождение и спортивная аналитика. Последние достижения улучшили способность моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), к пространственному рассуждению за счет использования крупномасштабных данных, однако эти модели по-прежнему испытывают трудности с анализом кинематических элементов, таких как пройденное расстояние и скорость движущихся объектов. Чтобы устранить этот пробел, мы создали набор данных и эталонный тест для пространственно-временного рассуждения с использованием кинематической настройки инструкций, названные STKit и STKit-Bench. Они включают реальные видео с 3D-аннотациями, детализирующими динамику движения объектов: пройденное расстояние, скорость, направление движения, сравнение расстояний между объектами и относительное направление движения. Для масштабирования создания таких данных на видео без 3D-меток мы предлагаем автоматизированный процесс генерации псевдо-меток с использованием 4D-реконструкции в реальном масштабе. С помощью наших данных для кинематической настройки инструкций в пространственно-временном рассуждении мы представляем ST-VLM — модель VLM, улучшенную для пространственно-временного рассуждения, которая демонстрирует выдающуюся производительность на STKit-Bench. Кроме того, мы показываем, что ST-VLM успешно обобщает знания в различных областях и задачах, превосходя базовые модели на других пространственно-временных тестах (например, ActivityNet, TVQA+). Наконец, интегрируя изученное пространственно-временное рассуждение с существующими способностями, ST-VLM позволяет выполнять сложное многошаговое рассуждение. Страница проекта: https://ikodoh.github.io/ST-VLM.
English
Spatio-temporal reasoning is essential in understanding real-world
environments in various fields, eg, autonomous driving and sports analytics.
Recent advances have improved the spatial reasoning ability of Vision-Language
Models (VLMs) by introducing large-scale data, but these models still struggle
to analyze kinematic elements like traveled distance and speed of moving
objects. To bridge this gap, we construct a spatio-temporal reasoning dataset
and benchmark involving kinematic instruction tuning, referred to as STKit and
STKit-Bench. They consist of real-world videos with 3D annotations, detailing
object motion dynamics: traveled distance, speed, movement direction,
inter-object distance comparisons, and relative movement direction. To further
scale such data construction to videos without 3D labels, we propose an
automatic pipeline to generate pseudo-labels using 4D reconstruction in
real-world scale. With our kinematic instruction tuning data for
spatio-temporal reasoning, we present ST-VLM, a VLM enhanced for
spatio-temporal reasoning, which exhibits outstanding performance on
STKit-Bench. Furthermore, we show that ST-VLM generalizes robustly across
diverse domains and tasks, outperforming baselines on other spatio-temporal
benchmarks (eg, ActivityNet, TVQA+). Finally, by integrating learned
spatio-temporal reasoning with existing abilities, ST-VLM enables complex
multi-step reasoning. Project page: https://ikodoh.github.io/ST-VLM.Summary
AI-Generated Summary