ChatPaper.aiChatPaper

V-STaR:ビデオLLMの時空間推論能力を評価するベンチマーク

V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

March 14, 2025
著者: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong
cs.AI

要旨

人間はビデオの推論を時空間的な順序に従った論理で処理します。まず関連するフレームを特定し(「いつ」)、次に主要なオブジェクト間の空間的関係を分析し(「どこ」)、最後にこれらの関係を活用して推論を行います(「何」)。しかし、ビデオ大規模言語モデル(Video-LLMs)もビデオにおいて「時空間的な順序に従った論理で推論」できるのでしょうか?既存のVideo-LLMベンチマークは主にオブジェクトの存在を評価することに焦点を当てており、関係的推論を軽視しています。その結果、モデルがビデオ内のオブジェクト間の相互作用(アクション/イベント)を真に理解しているのか、それとも事前学習された共起の「記憶」をバイアスとして答えを生成しているのかを測ることが困難です。本研究では、これらの欠点を解決するために、ビデオ時空間推論(V-STaR)ベンチマークを提案します。鍵となるアイデアは、ビデオ理解を逆時空間推論(RSTR)タスクに分解し、どのオブジェクトが存在するか、いつイベントが発生するか、どこに位置するかを同時に評価しながら、背後にある連鎖的思考(CoT)の論理を捉えることです。この評価を支援するため、Video-LLMsの時空間推論プロセスを引き出すデータセットを構築しました。これには、GPT-4を活用した半自動化パイプラインによって生成された粗から細かいCoT質問が含まれており、人間の認知を模倣する明示的な推論チェーンが埋め込まれています。14のVideo-LLMsによるV-STaRでの実験結果から、現在のVideo-LLMsと堅牢で一貫した時空間推論の必要性との間に大きなギャップがあることが明らかになりました。
English
Human processes video reasoning in a sequential spatio-temporal reasoning logic, we first identify the relevant frames ("when") and then analyse the spatial relationships ("where") between key objects, and finally leverage these relationships to draw inferences ("what"). However, can Video Large Language Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in videos? Existing Video-LLM benchmarks primarily focus on assessing object presence, neglecting relational reasoning. Consequently, it is difficult to measure whether a model truly comprehends object interactions (actions/events) in videos or merely relies on pre-trained "memory" of co-occurrences as biases in generating answers. In this work, we introduce a Video Spatio-Temporal Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR) task that simultaneously evaluates what objects are present, when events occur, and where they are located while capturing the underlying Chain-of-thought (CoT) logic. To support this evaluation, we construct a dataset to elicit the spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding explicit reasoning chains to mimic human cognition. Experiments from 14 Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and the needs for robust and consistent spatio-temporal reasoning.

Summary

AI-Generated Summary

PDF122March 18, 2025