V-STaR: Valutazione dei Video-LLM sul Ragionamento Spazio-Temporale nei Video
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning
March 14, 2025
Autori: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong
cs.AI
Abstract
Gli esseri umani elaborano il ragionamento video attraverso una logica sequenziale spazio-temporale: prima identificano i frame rilevanti ("quando"), poi analizzano le relazioni spaziali ("dove") tra gli oggetti chiave, e infine sfruttano queste relazioni per trarre inferenze ("cosa"). Tuttavia, i modelli linguistici di grandi dimensioni per video (Video-LLM) possono anche "ragionare attraverso una logica sequenziale spazio-temporale" nei video? Gli attuali benchmark per Video-LLM si concentrano principalmente sulla valutazione della presenza di oggetti, trascurando il ragionamento relazionale. Di conseguenza, è difficile misurare se un modello comprenda veramente le interazioni tra oggetti (azioni/eventi) nei video o si affidi semplicemente a "memorie" pre-addestrate di co-occorrenze come bias nella generazione delle risposte. In questo lavoro, introduciamo un benchmark di Ragionamento Spazio-Temporale nei Video (V-STaR) per affrontare queste carenze. L'idea chiave è scomporre la comprensione video in un compito di Ragionamento Spazio-Temporale Inverso (RSTR) che valuta simultaneamente quali oggetti sono presenti, quando si verificano gli eventi e dove sono localizzati, catturando la logica sottostante del Ragionamento a Catena (CoT). Per supportare questa valutazione, abbiamo costruito un dataset per elicitare il processo di ragionamento spazio-temporale dei Video-LLM. Esso contiene domande CoT da grossolane a fini generate da una pipeline semi-automatizzata alimentata da GPT-4, incorporando catene di ragionamento esplicite per mimare la cognizione umana. Gli esperimenti condotti su 14 Video-LLM utilizzando il nostro V-STaR rivelano significativi divari tra i Video-LLM attuali e le esigenze di un ragionamento spazio-temporale robusto e coerente.
English
Human processes video reasoning in a sequential spatio-temporal reasoning
logic, we first identify the relevant frames ("when") and then analyse the
spatial relationships ("where") between key objects, and finally leverage these
relationships to draw inferences ("what"). However, can Video Large Language
Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in
videos? Existing Video-LLM benchmarks primarily focus on assessing object
presence, neglecting relational reasoning. Consequently, it is difficult to
measure whether a model truly comprehends object interactions (actions/events)
in videos or merely relies on pre-trained "memory" of co-occurrences as biases
in generating answers. In this work, we introduce a Video Spatio-Temporal
Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to
decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR)
task that simultaneously evaluates what objects are present, when events occur,
and where they are located while capturing the underlying Chain-of-thought
(CoT) logic. To support this evaluation, we construct a dataset to elicit the
spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine
CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding
explicit reasoning chains to mimic human cognition. Experiments from 14
Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and
the needs for robust and consistent spatio-temporal reasoning.