ChatPaper.aiChatPaper

VCRBench : Exploration des capacités de raisonnement causal à long terme des grands modèles vidéo-langage

VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13, 2025
Auteurs: Pritam Sarkar, Ali Etemad
cs.AI

Résumé

Malgré les récents progrès dans la compréhension vidéo, les capacités des grands modèles de langage vidéo (LVLMs) à effectuer un raisonnement causal basé sur la vidéo restent peu explorées, principalement en raison de l'absence de benchmarks pertinents et dédiés pour évaluer le raisonnement causal dans des contextes visuellement ancrés et orientés vers un objectif. Pour combler cette lacune, nous introduisons un nouveau benchmark nommé Raisonnement Causal Long-Forme basé sur la Vidéo (VCRBench). Nous avons créé VCRBench en utilisant des vidéos procédurales d'activités quotidiennes simples, où les étapes sont délibérément mélangées, chaque clip capturant un événement causal clé, afin de tester si les LVLMs peuvent identifier, raisonner et séquencer correctement les événements nécessaires pour accomplir un objectif spécifique. De plus, le benchmark est soigneusement conçu pour empêcher les LVLMs d'exploiter des raccourcis linguistiques, comme on le voit dans les formats de questions à choix multiples ou binaires, tout en évitant les défis associés à l'évaluation des questions ouvertes. Notre évaluation des LVLMs de pointe sur VCRBench suggère que ces modèles ont du mal avec le raisonnement causal long-forme basé sur la vidéo, principalement en raison de leur difficulté à modéliser les dépendances causales à long terme directement à partir d'observations visuelles. Comme une étape simple pour permettre de telles capacités, nous proposons la Décomposition Reconnaissance-Raisonnement (RRD), une approche modulaire qui divise le raisonnement causal basé sur la vidéo en deux sous-tâches de reconnaissance vidéo et de raisonnement causal. Nos expériences sur VCRBench montrent que RRD améliore significativement la précision sur VCRBench, avec des gains allant jusqu'à 25,2 %. Enfin, notre analyse approfondie révèle des insights intéressants, par exemple, que les LVLMs s'appuient principalement sur les connaissances linguistiques pour les tâches complexes de raisonnement causal long-forme basé sur la vidéo.
English
Despite recent advances in video understanding, the capabilities of Large Video Language Models (LVLMs) to perform video-based causal reasoning remains underexplored, largely due to the absence of relevant and dedicated benchmarks for evaluating causal reasoning in visually grounded and goal-driven settings. To fill this gap, we introduce a novel benchmark named Video-based long-form Causal Reasoning (VCRBench). We create VCRBench using procedural videos of simple everyday activities, where the steps are deliberately shuffled with each clip capturing a key causal event, to test whether LVLMs can identify, reason about, and correctly sequence the events needed to accomplish a specific goal. Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting linguistic shortcuts, as seen in multiple-choice or binary QA formats, while also avoiding the challenges associated with evaluating open-ended QA. Our evaluation of state-of-the-art LVLMs on VCRBench suggests that these models struggle with video-based long-form causal reasoning, primarily due to their difficulty in modeling long-range causal dependencies directly from visual observations. As a simple step toward enabling such capabilities, we propose Recognition-Reasoning Decomposition (RRD), a modular approach that breaks video-based causal reasoning into two sub-tasks of video recognition and causal reasoning. Our experiments on VCRBench show that RRD significantly boosts accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis reveals interesting insights, for instance, that LVLMs primarily rely on language knowledge for complex video-based long-form causal reasoning tasks.

Summary

AI-Generated Summary

PDF41May 15, 2025