V-STaR : Évaluation des modèles de langage vidéo (Video-LLMs) sur le raisonnement spatio-temporel dans les vidéos
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning
March 14, 2025
Auteurs: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong
cs.AI
Résumé
Les humains traitent le raisonnement vidéo selon une logique séquentielle spatio-temporelle : nous identifions d'abord les images pertinentes ("quand"), puis analysons les relations spatiales ("où") entre les objets clés, et enfin exploitons ces relations pour tirer des conclusions ("quoi"). Cependant, les modèles de langage vidéo de grande taille (Video-LLMs) peuvent-ils également "raisonner selon une logique spatio-temporelle séquentielle" dans les vidéos ? Les benchmarks existants pour les Video-LLMs se concentrent principalement sur l'évaluation de la présence d'objets, négligeant le raisonnement relationnel. Par conséquent, il est difficile de mesurer si un modèle comprend véritablement les interactions entre objets (actions/événements) dans les vidéos ou s'il s'appuie simplement sur une "mémoire" pré-entraînée de co-occurrences comme biais pour générer des réponses. Dans ce travail, nous introduisons un benchmark de raisonnement spatio-temporel vidéo (V-STaR) pour combler ces lacunes. L'idée clé est de décomposer la compréhension vidéo en une tâche de raisonnement spatio-temporel inverse (RSTR) qui évalue simultanément quels objets sont présents, quand les événements se produisent et où ils se situent, tout en capturant la logique sous-jacente de la chaîne de pensée (CoT). Pour soutenir cette évaluation, nous construisons un ensemble de données visant à susciter le processus de raisonnement spatio-temporel des Video-LLMs. Il contient des questions CoT allant du général au spécifique, générées par un pipeline semi-automatisé alimenté par GPT-4, intégrant des chaînes de raisonnement explicites pour imiter la cognition humaine. Les expériences menées sur 14 Video-LLMs avec notre V-STaR révèlent des écarts significatifs entre les Video-LLMs actuels et les besoins en matière de raisonnement spatio-temporel robuste et cohérente.
English
Human processes video reasoning in a sequential spatio-temporal reasoning
logic, we first identify the relevant frames ("when") and then analyse the
spatial relationships ("where") between key objects, and finally leverage these
relationships to draw inferences ("what"). However, can Video Large Language
Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in
videos? Existing Video-LLM benchmarks primarily focus on assessing object
presence, neglecting relational reasoning. Consequently, it is difficult to
measure whether a model truly comprehends object interactions (actions/events)
in videos or merely relies on pre-trained "memory" of co-occurrences as biases
in generating answers. In this work, we introduce a Video Spatio-Temporal
Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to
decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR)
task that simultaneously evaluates what objects are present, when events occur,
and where they are located while capturing the underlying Chain-of-thought
(CoT) logic. To support this evaluation, we construct a dataset to elicit the
spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine
CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding
explicit reasoning chains to mimic human cognition. Experiments from 14
Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and
the needs for robust and consistent spatio-temporal reasoning.Summary
AI-Generated Summary