ChatPaper.aiChatPaper

ST-VLM : Réglage des instructions cinématiques pour le raisonnement spatio-temporel dans les modèles vision-langage

ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models

March 25, 2025
Auteurs: Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim
cs.AI

Résumé

Le raisonnement spatio-temporel est essentiel pour comprendre les environnements réels dans divers domaines, tels que la conduite autonome et l'analyse sportive. Les récents progrès ont amélioré la capacité de raisonnement spatial des modèles vision-langage (VLMs) grâce à l'introduction de données à grande échelle, mais ces modèles peinent encore à analyser des éléments cinématiques comme la distance parcourue et la vitesse des objets en mouvement. Pour combler cette lacune, nous construisons un ensemble de données et un benchmark de raisonnement spatio-temporel impliquant un ajustement d'instructions cinématiques, appelés STKit et STKit-Bench. Ils consistent en des vidéos du monde réel avec des annotations 3D, détaillant la dynamique du mouvement des objets : distance parcourue, vitesse, direction du mouvement, comparaisons de distances inter-objets et direction relative du mouvement. Pour étendre la construction de telles données à des vidéos sans étiquettes 3D, nous proposons un pipeline automatique pour générer des pseudo-étiquettes en utilisant la reconstruction 4D à l'échelle réelle. Avec nos données d'ajustement d'instructions cinématiques pour le raisonnement spatio-temporel, nous présentons ST-VLM, un VLM amélioré pour le raisonnement spatio-temporel, qui montre des performances exceptionnelles sur STKit-Bench. De plus, nous montrons que ST-VLM se généralise robustement à travers divers domaines et tâches, surpassant les modèles de référence sur d'autres benchmarks spatio-temporels (par exemple, ActivityNet, TVQA+). Enfin, en intégrant le raisonnement spatio-temporel appris avec les capacités existantes, ST-VLM permet un raisonnement complexe en plusieurs étapes. Page du projet : https://ikodoh.github.io/ST-VLM.
English
Spatio-temporal reasoning is essential in understanding real-world environments in various fields, eg, autonomous driving and sports analytics. Recent advances have improved the spatial reasoning ability of Vision-Language Models (VLMs) by introducing large-scale data, but these models still struggle to analyze kinematic elements like traveled distance and speed of moving objects. To bridge this gap, we construct a spatio-temporal reasoning dataset and benchmark involving kinematic instruction tuning, referred to as STKit and STKit-Bench. They consist of real-world videos with 3D annotations, detailing object motion dynamics: traveled distance, speed, movement direction, inter-object distance comparisons, and relative movement direction. To further scale such data construction to videos without 3D labels, we propose an automatic pipeline to generate pseudo-labels using 4D reconstruction in real-world scale. With our kinematic instruction tuning data for spatio-temporal reasoning, we present ST-VLM, a VLM enhanced for spatio-temporal reasoning, which exhibits outstanding performance on STKit-Bench. Furthermore, we show that ST-VLM generalizes robustly across diverse domains and tasks, outperforming baselines on other spatio-temporal benchmarks (eg, ActivityNet, TVQA+). Finally, by integrating learned spatio-temporal reasoning with existing abilities, ST-VLM enables complex multi-step reasoning. Project page: https://ikodoh.github.io/ST-VLM.

Summary

AI-Generated Summary

PDF11March 26, 2025