V-STaR: Оценка способностей видео-ориентированных языковых моделей к пространственно-временному анализу видео
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning
March 14, 2025
Авторы: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong
cs.AI
Аннотация
Человек обрабатывает видео, используя последовательную пространственно-временную логику рассуждений: сначала определяет релевантные кадры ("когда"), затем анализирует пространственные отношения ("где") между ключевыми объектами и, наконец, использует эти отношения для выводов ("что"). Однако способны ли крупные языковые модели для видео (Video-LLMs) также "рассуждать в рамках последовательной пространственно-временной логики" при работе с видео? Существующие бенчмарки для Video-LLM в основном сосредоточены на оценке наличия объектов, игнорируя реляционные рассуждения. В результате сложно определить, действительно ли модель понимает взаимодействия объектов (действия/события) в видео или просто полагается на предварительно обученную "память" о совместных встречах как на предубеждения при генерации ответов. В данной работе мы представляем бенчмарк Video Spatio-Temporal Reasoning (V-STaR), чтобы устранить эти недостатки. Ключевая идея заключается в декомпозиции понимания видео на задачу обратного пространственно-временного рассуждения (Reverse Spatio-Temporal Reasoning, RSTR), которая одновременно оценивает, какие объекты присутствуют, когда происходят события и где они расположены, при этом фиксируя лежащую в основе логику цепочки рассуждений (Chain-of-thought, CoT). Для поддержки этой оценки мы создаем набор данных, чтобы выявить пространственно-временные рассуждения Video-LLM. Он содержит вопросы с постепенным усложнением, сгенерированные полуавтоматическим конвейером на основе GPT-4, в которые встроены явные цепочки рассуждений, имитирующие человеческое познание. Эксперименты с 14 Video-LLM на нашем V-STaR выявили значительные разрывы между текущими возможностями Video-LLM и требованиями к надежному и последовательному пространственно-временному рассуждению.
English
Human processes video reasoning in a sequential spatio-temporal reasoning
logic, we first identify the relevant frames ("when") and then analyse the
spatial relationships ("where") between key objects, and finally leverage these
relationships to draw inferences ("what"). However, can Video Large Language
Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in
videos? Existing Video-LLM benchmarks primarily focus on assessing object
presence, neglecting relational reasoning. Consequently, it is difficult to
measure whether a model truly comprehends object interactions (actions/events)
in videos or merely relies on pre-trained "memory" of co-occurrences as biases
in generating answers. In this work, we introduce a Video Spatio-Temporal
Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to
decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR)
task that simultaneously evaluates what objects are present, when events occur,
and where they are located while capturing the underlying Chain-of-thought
(CoT) logic. To support this evaluation, we construct a dataset to elicit the
spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine
CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding
explicit reasoning chains to mimic human cognition. Experiments from 14
Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and
the needs for robust and consistent spatio-temporal reasoning.Summary
AI-Generated Summary