ST-VLM: Ajuste de Instruções Cinemáticas para Raciocínio Espaço-Temporal em Modelos de Visão e Linguagem
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models
March 25, 2025
Autores: Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim
cs.AI
Resumo
O raciocínio espaço-temporal é essencial para a compreensão de ambientes do mundo real em diversos campos, como direção autônoma e análise esportiva. Avanços recentes melhoraram a capacidade de raciocínio espacial dos Modelos de Visão e Linguagem (VLMs) por meio da introdução de dados em grande escala, mas esses modelos ainda enfrentam dificuldades para analisar elementos cinemáticos, como distância percorrida e velocidade de objetos em movimento. Para preencher essa lacuna, construímos um conjunto de dados e um benchmark de raciocínio espaço-temporal envolvendo ajuste de instruções cinemáticas, denominados STKit e STKit-Bench. Eles consistem em vídeos do mundo real com anotações 3D, detalhando a dinâmica do movimento dos objetos: distância percorrida, velocidade, direção do movimento, comparações de distância entre objetos e direção relativa do movimento. Para escalar ainda mais a construção desses dados para vídeos sem rótulos 3D, propomos um pipeline automático para gerar pseudo-rótulos usando reconstrução 4D em escala do mundo real. Com nossos dados de ajuste de instruções cinemáticas para raciocínio espaço-temporal, apresentamos o ST-VLM, um VLM aprimorado para raciocínio espaço-temporal, que exibe desempenho excepcional no STKit-Bench. Além disso, mostramos que o ST-VLM generaliza de forma robusta em diversos domínios e tarefas, superando as linhas de base em outros benchmarks espaço-temporais (por exemplo, ActivityNet, TVQA+). Por fim, ao integrar o raciocínio espaço-temporal aprendido com habilidades existentes, o ST-VLM permite raciocínios complexos de múltiplos passos. Página do projeto: https://ikodoh.github.io/ST-VLM.
English
Spatio-temporal reasoning is essential in understanding real-world
environments in various fields, eg, autonomous driving and sports analytics.
Recent advances have improved the spatial reasoning ability of Vision-Language
Models (VLMs) by introducing large-scale data, but these models still struggle
to analyze kinematic elements like traveled distance and speed of moving
objects. To bridge this gap, we construct a spatio-temporal reasoning dataset
and benchmark involving kinematic instruction tuning, referred to as STKit and
STKit-Bench. They consist of real-world videos with 3D annotations, detailing
object motion dynamics: traveled distance, speed, movement direction,
inter-object distance comparisons, and relative movement direction. To further
scale such data construction to videos without 3D labels, we propose an
automatic pipeline to generate pseudo-labels using 4D reconstruction in
real-world scale. With our kinematic instruction tuning data for
spatio-temporal reasoning, we present ST-VLM, a VLM enhanced for
spatio-temporal reasoning, which exhibits outstanding performance on
STKit-Bench. Furthermore, we show that ST-VLM generalizes robustly across
diverse domains and tasks, outperforming baselines on other spatio-temporal
benchmarks (eg, ActivityNet, TVQA+). Finally, by integrating learned
spatio-temporal reasoning with existing abilities, ST-VLM enables complex
multi-step reasoning. Project page: https://ikodoh.github.io/ST-VLM.Summary
AI-Generated Summary