ChatPaper.aiChatPaper

V-STaR: Benchmarking van Video-LLM's op Spatio-temporeel Redeneren in Video's

V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

March 14, 2025
Auteurs: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong
cs.AI

Samenvatting

Mensen verwerken videoredenering in een sequentiële spatio-temporele redeneerlogica. Eerst identificeren we de relevante frames ("wanneer"), analyseren vervolgens de ruimtelijke relaties ("waar") tussen belangrijke objecten, en gebruiken ten slotte deze relaties om conclusies te trekken ("wat"). Maar kunnen Video Large Language Models (Video-LLMs) ook "redeneren via een sequentiële spatio-temporele logica" in video's? Bestaande Video-LLM-benchmarks richten zich voornamelijk op het beoordelen van objectaanwezigheid, waarbij relationeel redeneren wordt verwaarloosd. Hierdoor is het moeilijk te meten of een model daadwerkelijk de interacties tussen objecten (acties/gebeurtenissen) in video's begrijpt of slechts vertrouwt op vooraf getrainde "herinneringen" van co-voorkomens als vooroordelen bij het genereren van antwoorden. In dit werk introduceren we een Video Spatio-Temporeel Redeneren (V-STaR) benchmark om deze tekortkomingen aan te pakken. Het kernidee is om videobegrip te ontleden in een Reverse Spatio-Temporeel Redeneren (RSTR) taak die tegelijkertijd evalueert welke objecten aanwezig zijn, wanneer gebeurtenissen plaatsvinden en waar ze zich bevinden, terwijl de onderliggende Chain-of-thought (CoT) logica wordt vastgelegd. Om deze evaluatie te ondersteunen, construeren we een dataset om het ruimtelijk-temporele redeneerproces van Video-LLMs uit te lokken. Deze bevat grof-naar-fijn CoT-vragen die zijn gegenereerd door een semi-geautomatiseerde GPT-4-aangedreven pijplijn, waarbij expliciete redeneerketens zijn ingebed om menselijke cognitie na te bootsen. Experimenten met 14 Video-LLMs op onze V-STaR onthullen aanzienlijke hiaten tussen huidige Video-LLMs en de behoeften voor robuust en consistent spatio-temporeel redeneren.
English
Human processes video reasoning in a sequential spatio-temporal reasoning logic, we first identify the relevant frames ("when") and then analyse the spatial relationships ("where") between key objects, and finally leverage these relationships to draw inferences ("what"). However, can Video Large Language Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in videos? Existing Video-LLM benchmarks primarily focus on assessing object presence, neglecting relational reasoning. Consequently, it is difficult to measure whether a model truly comprehends object interactions (actions/events) in videos or merely relies on pre-trained "memory" of co-occurrences as biases in generating answers. In this work, we introduce a Video Spatio-Temporal Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR) task that simultaneously evaluates what objects are present, when events occur, and where they are located while capturing the underlying Chain-of-thought (CoT) logic. To support this evaluation, we construct a dataset to elicit the spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding explicit reasoning chains to mimic human cognition. Experiments from 14 Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and the needs for robust and consistent spatio-temporal reasoning.
PDF132March 18, 2025