V-STaR: 비디오-LLM의 비디오 시공간 추론 능력 벤치마킹
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning
March 14, 2025
저자: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong
cs.AI
초록
인간은 비디오를 순차적인 시공간 추론 논리로 처리합니다. 먼저 관련 프레임("언제")을 식별한 다음, 주요 객체 간의 공간적 관계("어디에")를 분석하고, 마지막으로 이러한 관계를 활용하여 추론("무엇")을 도출합니다. 그러나 비디오 대형 언어 모델(Video-LLMs)도 비디오에서 "순차적인 시공간 논리를 통해 추론"할 수 있을까요? 기존의 Video-LLM 벤치마크는 주로 객체 존재 여부를 평가하는 데 초점을 맞추고 있어 관계적 추론을 간과하고 있습니다. 결과적으로, 모델이 비디오에서 객체 상호작용(행동/사건)을 진정으로 이해하는지, 아니면 단순히 사전 학습된 "기억"에 의존하여 편향된 답변을 생성하는지 측정하기 어렵습니다. 본 연구에서는 이러한 단점을 해결하기 위해 Video Spatio-Temporal Reasoning(V-STaR) 벤치마크를 소개합니다. 핵심 아이디어는 비디오 이해를 역방향 시공간 추론(Reverse Spatio-Temporal Reasoning, RSTR) 작업으로 분해하여, 어떤 객체가 존재하는지, 언제 사건이 발생하는지, 어디에 위치하는지를 동시에 평가하면서 내재된 사고의 연쇄(Chain-of-thought, CoT) 논리를 포착하는 것입니다. 이를 지원하기 위해, 우리는 Video-LLM의 시공간 추론 과정을 유도하는 데이터셋을 구축했습니다. 이 데이터셋은 GPT-4 기반의 반자동화 파이프라인으로 생성된 세분화된 CoT 질문들로 구성되어 있으며, 인간의 인지를 모방하기 위해 명시적인 추론 체인을 포함하고 있습니다. 14개의 Video-LLM을 대상으로 한 V-STaR 실험 결과, 현재의 Video-LLM과 견고하고 일관된 시공간 추론 요구 사항 간에 상당한 격차가 있음이 드러났습니다.
English
Human processes video reasoning in a sequential spatio-temporal reasoning
logic, we first identify the relevant frames ("when") and then analyse the
spatial relationships ("where") between key objects, and finally leverage these
relationships to draw inferences ("what"). However, can Video Large Language
Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in
videos? Existing Video-LLM benchmarks primarily focus on assessing object
presence, neglecting relational reasoning. Consequently, it is difficult to
measure whether a model truly comprehends object interactions (actions/events)
in videos or merely relies on pre-trained "memory" of co-occurrences as biases
in generating answers. In this work, we introduce a Video Spatio-Temporal
Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to
decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR)
task that simultaneously evaluates what objects are present, when events occur,
and where they are located while capturing the underlying Chain-of-thought
(CoT) logic. To support this evaluation, we construct a dataset to elicit the
spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine
CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding
explicit reasoning chains to mimic human cognition. Experiments from 14
Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and
the needs for robust and consistent spatio-temporal reasoning.Summary
AI-Generated Summary