ST-VLM: Ajuste de Instrucciones Cinemáticas para el Razonamiento Espacio-Temporal en Modelos de Visión-Lenguaje
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models
March 25, 2025
Autores: Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim
cs.AI
Resumen
El razonamiento espacio-temporal es esencial para comprender entornos del mundo real en diversos campos, como la conducción autónoma y el análisis deportivo. Los avances recientes han mejorado la capacidad de razonamiento espacial de los Modelos de Visión-Lenguaje (VLMs) mediante la introducción de datos a gran escala, pero estos modelos aún tienen dificultades para analizar elementos cinemáticos como la distancia recorrida y la velocidad de objetos en movimiento. Para cerrar esta brecha, construimos un conjunto de datos y un punto de referencia para el razonamiento espacio-temporal que involucra ajuste de instrucciones cinemáticas, denominados STKit y STKit-Bench. Estos consisten en videos del mundo real con anotaciones 3D que detallan la dinámica del movimiento de los objetos: distancia recorrida, velocidad, dirección de movimiento, comparaciones de distancia entre objetos y dirección de movimiento relativa. Para escalar aún más la construcción de tales datos a videos sin etiquetas 3D, proponemos una pipeline automática para generar pseudoetiquetas utilizando reconstrucción 4D a escala del mundo real. Con nuestros datos de ajuste de instrucciones cinemáticas para el razonamiento espacio-temporal, presentamos ST-VLM, un VLM mejorado para el razonamiento espacio-temporal, que exhibe un rendimiento sobresaliente en STKit-Bench. Además, demostramos que ST-VLM generaliza de manera robusta en diversos dominios y tareas, superando a los modelos de referencia en otros puntos de referencia espacio-temporales (por ejemplo, ActivityNet, TVQA+). Finalmente, al integrar el razonamiento espacio-temporal aprendido con las capacidades existentes, ST-VLM permite un razonamiento complejo de múltiples pasos. Página del proyecto: https://ikodoh.github.io/ST-VLM.
English
Spatio-temporal reasoning is essential in understanding real-world
environments in various fields, eg, autonomous driving and sports analytics.
Recent advances have improved the spatial reasoning ability of Vision-Language
Models (VLMs) by introducing large-scale data, but these models still struggle
to analyze kinematic elements like traveled distance and speed of moving
objects. To bridge this gap, we construct a spatio-temporal reasoning dataset
and benchmark involving kinematic instruction tuning, referred to as STKit and
STKit-Bench. They consist of real-world videos with 3D annotations, detailing
object motion dynamics: traveled distance, speed, movement direction,
inter-object distance comparisons, and relative movement direction. To further
scale such data construction to videos without 3D labels, we propose an
automatic pipeline to generate pseudo-labels using 4D reconstruction in
real-world scale. With our kinematic instruction tuning data for
spatio-temporal reasoning, we present ST-VLM, a VLM enhanced for
spatio-temporal reasoning, which exhibits outstanding performance on
STKit-Bench. Furthermore, we show that ST-VLM generalizes robustly across
diverse domains and tasks, outperforming baselines on other spatio-temporal
benchmarks (eg, ActivityNet, TVQA+). Finally, by integrating learned
spatio-temporal reasoning with existing abilities, ST-VLM enables complex
multi-step reasoning. Project page: https://ikodoh.github.io/ST-VLM.Summary
AI-Generated Summary