VCRBench: Esplorazione delle Capacità di Ragionamento Causale a Lungo Termine nei Grandi Modelli Linguistici per Video
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
May 13, 2025
Autori: Pritam Sarkar, Ali Etemad
cs.AI
Abstract
Nonostante i recenti progressi nella comprensione video, le capacità dei Modelli Linguistici su Video di Grande Scala (LVLM) di eseguire ragionamenti causali basati su video rimangono poco esplorate, principalmente a causa dell'assenza di benchmark rilevanti e dedicati per valutare il ragionamento causale in contesti visivamente fondati e orientati a obiettivi. Per colmare questa lacuna, introduciamo un nuovo benchmark denominato Video-based long-form Causal Reasoning (VCRBench). Abbiamo creato VCRBench utilizzando video procedurali di semplici attività quotidiane, in cui i passaggi sono deliberatamente mescolati, con ogni clip che cattura un evento causale chiave, per testare se gli LVLM possono identificare, ragionare e sequenziare correttamente gli eventi necessari per raggiungere un obiettivo specifico. Inoltre, il benchmark è stato progettato con cura per impedire agli LVLM di sfruttare scorciatoie linguistiche, come si vede nei formati a scelta multipla o nelle domande binarie, evitando anche le sfide associate alla valutazione di domande aperte. La nostra valutazione degli LVLM all'avanguardia su VCRBench suggerisce che questi modelli hanno difficoltà con il ragionamento causale a lungo termine basato su video, principalmente a causa della loro difficoltà nel modellare dipendenze causali a lungo raggio direttamente dalle osservazioni visive. Come un semplice passo verso l'abilitazione di tali capacità, proponiamo la Decomposizione Riconoscimento-Ragionamento (RRD), un approccio modulare che suddivide il ragionamento causale basato su video in due sotto-task di riconoscimento video e ragionamento causale. I nostri esperimenti su VCRBench mostrano che RRD aumenta significativamente l'accuratezza su VCRBench, con miglioramenti fino al 25,2%. Infine, la nostra analisi approfondita rivela intuizioni interessanti, ad esempio, che gli LVLM si affidano principalmente alla conoscenza linguistica per compiti complessi di ragionamento causale a lungo termine basati su video.
English
Despite recent advances in video understanding, the capabilities of Large
Video Language Models (LVLMs) to perform video-based causal reasoning remains
underexplored, largely due to the absence of relevant and dedicated benchmarks
for evaluating causal reasoning in visually grounded and goal-driven settings.
To fill this gap, we introduce a novel benchmark named Video-based long-form
Causal Reasoning (VCRBench). We create VCRBench using procedural videos of
simple everyday activities, where the steps are deliberately shuffled with each
clip capturing a key causal event, to test whether LVLMs can identify, reason
about, and correctly sequence the events needed to accomplish a specific goal.
Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting
linguistic shortcuts, as seen in multiple-choice or binary QA formats, while
also avoiding the challenges associated with evaluating open-ended QA. Our
evaluation of state-of-the-art LVLMs on VCRBench suggests that these models
struggle with video-based long-form causal reasoning, primarily due to their
difficulty in modeling long-range causal dependencies directly from visual
observations. As a simple step toward enabling such capabilities, we propose
Recognition-Reasoning Decomposition (RRD), a modular approach that breaks
video-based causal reasoning into two sub-tasks of video recognition and causal
reasoning. Our experiments on VCRBench show that RRD significantly boosts
accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis
reveals interesting insights, for instance, that LVLMs primarily rely on
language knowledge for complex video-based long-form causal reasoning tasks.