ChatPaper.aiChatPaper

VCRBench: Untersuchung der Fähigkeiten zur langfristigen kausalen Argumentation großer Video-Sprachmodelle

VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13, 2025
Autoren: Pritam Sarkar, Ali Etemad
cs.AI

Zusammenfassung

Trotz jüngster Fortschritte im Bereich des Videoverständnisses sind die Fähigkeiten von Large Video Language Models (LVLMs) zur Durchführung von video-basiertem kausalem Denken weitgehend unerforscht, was vor allem auf das Fehlen relevanter und spezieller Benchmarks zur Bewertung von kausalem Denken in visuell fundierten und zielorientierten Kontexten zurückzuführen ist. Um diese Lücke zu schließen, führen wir einen neuartigen Benchmark namens Video-based long-form Causal Reasoning (VCRBench) ein. Wir erstellen VCRBench mithilfe von prozeduralen Videos einfacher alltäglicher Aktivitäten, bei denen die Schritte absichtlich durcheinander gebracht werden, wobei jedes Clip ein Schlüsselereignis mit kausaler Bedeutung erfasst, um zu testen, ob LVLMs die Ereignisse identifizieren, darüber nachdenken und korrekt in die richtige Reihenfolge bringen können, die zur Erreichung eines bestimmten Ziels erforderlich sind. Darüber hinaus ist der Benchmark sorgfältig so gestaltet, dass LVLMs keine sprachlichen Abkürzungen ausnutzen können, wie sie in Multiple-Choice- oder binären QA-Formaten zu finden sind, während gleichzeitig die Herausforderungen vermieden werden, die mit der Bewertung von offenen QA-Formaten verbunden sind. Unsere Bewertung von state-of-the-art LVLMs auf VCRBench deutet darauf hin, dass diese Modelle mit video-basiertem langfristigem kausalem Denken zu kämpfen haben, hauptsächlich aufgrund ihrer Schwierigkeit, langfristige kausale Abhängigkeiten direkt aus visuellen Beobachtungen zu modellieren. Als einen einfachen Schritt zur Ermöglichung solcher Fähigkeiten schlagen wir Recognition-Reasoning Decomposition (RRD) vor, einen modularen Ansatz, der video-basiertes kausales Denken in zwei Teilaufgaben des Videoerkennens und des kausalen Denkens aufteilt. Unsere Experimente auf VCRBench zeigen, dass RRD die Genauigkeit auf VCRBench erheblich steigert, mit Verbesserungen von bis zu 25,2%. Schließlich offenbart unsere umfassende Analyse interessante Erkenntnisse, zum Beispiel, dass LVLMs bei komplexen video-basierten langfristigen kausalen Denkaufgaben hauptsächlich auf Sprachwissen zurückgreifen.
English
Despite recent advances in video understanding, the capabilities of Large Video Language Models (LVLMs) to perform video-based causal reasoning remains underexplored, largely due to the absence of relevant and dedicated benchmarks for evaluating causal reasoning in visually grounded and goal-driven settings. To fill this gap, we introduce a novel benchmark named Video-based long-form Causal Reasoning (VCRBench). We create VCRBench using procedural videos of simple everyday activities, where the steps are deliberately shuffled with each clip capturing a key causal event, to test whether LVLMs can identify, reason about, and correctly sequence the events needed to accomplish a specific goal. Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting linguistic shortcuts, as seen in multiple-choice or binary QA formats, while also avoiding the challenges associated with evaluating open-ended QA. Our evaluation of state-of-the-art LVLMs on VCRBench suggests that these models struggle with video-based long-form causal reasoning, primarily due to their difficulty in modeling long-range causal dependencies directly from visual observations. As a simple step toward enabling such capabilities, we propose Recognition-Reasoning Decomposition (RRD), a modular approach that breaks video-based causal reasoning into two sub-tasks of video recognition and causal reasoning. Our experiments on VCRBench show that RRD significantly boosts accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis reveals interesting insights, for instance, that LVLMs primarily rely on language knowledge for complex video-based long-form causal reasoning tasks.
PDF42May 15, 2025