V-STaR: Avaliando Modelos de Linguagem de Vídeo no Raciocínio Espaço-Temporal em Vídeos
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning
March 14, 2025
Autores: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong
cs.AI
Resumo
Os humanos processam o raciocínio em vídeos por meio de uma lógica sequencial de raciocínio espaço-temporal: primeiro identificam os quadros relevantes ("quando"), depois analisam as relações espaciais ("onde") entre os objetos-chave e, por fim, utilizam essas relações para tirar inferências ("o quê"). No entanto, os Modelos de Linguagem de Grande Escala para Vídeos (Video-LLMs) também conseguem "raciocinar por meio de uma lógica sequencial espaço-temporal" em vídeos? Os benchmarks existentes para Video-LLMs focam principalmente em avaliar a presença de objetos, negligenciando o raciocínio relacional. Consequentemente, é difícil medir se um modelo realmente compreende as interações entre objetos (ações/eventos) em vídeos ou se apenas depende de "memórias" pré-treinadas de co-ocorrências como vieses na geração de respostas. Neste trabalho, introduzimos um benchmark de Raciocínio Espaço-Temporal em Vídeos (V-STaR) para abordar essas limitações. A ideia central é decompor a compreensão de vídeos em uma tarefa de Raciocínio Espaço-Temporal Reverso (RSTR) que avalia simultaneamente quais objetos estão presentes, quando os eventos ocorrem e onde estão localizados, capturando a lógica subjacente de Cadeia de Pensamento (CoT). Para apoiar essa avaliação, construímos um conjunto de dados para elicitar o processo de raciocínio espaço-temporal dos Video-LLMs. Ele contém perguntas CoT de granularidade grossa a fina, geradas por um pipeline semi-automatizado alimentado por GPT-4, incorporando cadeias de raciocínio explícitas para imitar a cognição humana. Experimentos com 14 Video-LLMs em nosso V-STaR revelam lacunas significativas entre os Video-LLMs atuais e as necessidades para um raciocínio espaço-temporal robusto e consistente.
English
Human processes video reasoning in a sequential spatio-temporal reasoning
logic, we first identify the relevant frames ("when") and then analyse the
spatial relationships ("where") between key objects, and finally leverage these
relationships to draw inferences ("what"). However, can Video Large Language
Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in
videos? Existing Video-LLM benchmarks primarily focus on assessing object
presence, neglecting relational reasoning. Consequently, it is difficult to
measure whether a model truly comprehends object interactions (actions/events)
in videos or merely relies on pre-trained "memory" of co-occurrences as biases
in generating answers. In this work, we introduce a Video Spatio-Temporal
Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to
decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR)
task that simultaneously evaluates what objects are present, when events occur,
and where they are located while capturing the underlying Chain-of-thought
(CoT) logic. To support this evaluation, we construct a dataset to elicit the
spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine
CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding
explicit reasoning chains to mimic human cognition. Experiments from 14
Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and
the needs for robust and consistent spatio-temporal reasoning.Summary
AI-Generated Summary