VCRBench: Onderzoek naar de Langetermijn Causale Redeneervaardigheden van Grote Video-Taalmodellen
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
May 13, 2025
Auteurs: Pritam Sarkar, Ali Etemad
cs.AI
Samenvatting
Ondanks recente vooruitgang in videobegrip, blijven de mogelijkheden van Grote Video Taalmodellen (LVLMs) om op video gebaseerd causaal redeneren uit te voeren onderbelicht, grotendeels door het ontbreken van relevante en toegewijde benchmarks voor het evalueren van causaal redeneren in visueel onderbouwde en doelgerichte contexten. Om deze leemte te vullen, introduceren we een nieuwe benchmark genaamd Video-based long-form Causal Reasoning (VCRBench). We hebben VCRBench ontwikkeld met behulp van procedurele video's van eenvoudige dagelijkse activiteiten, waarbij de stappen opzettelijk door elkaar zijn geschud, waarbij elke clip een belangrijk causaal moment vastlegt, om te testen of LVLMs de gebeurtenissen kunnen identificeren, overdenken en correct kunnen ordenen die nodig zijn om een specifiek doel te bereiken. Bovendien is de benchmark zorgvuldig ontworpen om te voorkomen dat LVLMs gebruikmaken van taalkundige shortcuts, zoals gezien in meerkeuze- of binaire QA-formaten, terwijl ook de uitdagingen die gepaard gaan met het evalueren van open-einde QA worden vermeden. Onze evaluatie van state-of-the-art LVLMs op VCRBench suggereert dat deze modellen moeite hebben met op video gebaseerd langdurig causaal redeneren, voornamelijk vanwege hun moeilijkheid om langeafstands causale afhankelijkheden direct uit visuele observaties te modelleren. Als een eenvoudige stap om dergelijke mogelijkheden te bevorderen, stellen we Recognition-Reasoning Decomposition (RRD) voor, een modulaire aanpak die op video gebaseerd causaal redeneren opsplitst in twee sub-taken van videorecognitie en causaal redeneren. Onze experimenten op VCRBench tonen aan dat RRD de nauwkeurigheid op VCRBench aanzienlijk verbetert, met winsten tot 25,2%. Ten slotte onthult onze grondige analyse interessante inzichten, bijvoorbeeld dat LVLMs voornamelijk vertrouwen op taalkennis voor complexe op video gebaseerde langdurige causale redeneertaken.
English
Despite recent advances in video understanding, the capabilities of Large
Video Language Models (LVLMs) to perform video-based causal reasoning remains
underexplored, largely due to the absence of relevant and dedicated benchmarks
for evaluating causal reasoning in visually grounded and goal-driven settings.
To fill this gap, we introduce a novel benchmark named Video-based long-form
Causal Reasoning (VCRBench). We create VCRBench using procedural videos of
simple everyday activities, where the steps are deliberately shuffled with each
clip capturing a key causal event, to test whether LVLMs can identify, reason
about, and correctly sequence the events needed to accomplish a specific goal.
Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting
linguistic shortcuts, as seen in multiple-choice or binary QA formats, while
also avoiding the challenges associated with evaluating open-ended QA. Our
evaluation of state-of-the-art LVLMs on VCRBench suggests that these models
struggle with video-based long-form causal reasoning, primarily due to their
difficulty in modeling long-range causal dependencies directly from visual
observations. As a simple step toward enabling such capabilities, we propose
Recognition-Reasoning Decomposition (RRD), a modular approach that breaks
video-based causal reasoning into two sub-tasks of video recognition and causal
reasoning. Our experiments on VCRBench show that RRD significantly boosts
accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis
reveals interesting insights, for instance, that LVLMs primarily rely on
language knowledge for complex video-based long-form causal reasoning tasks.Summary
AI-Generated Summary