VCRBench: Esplorazione delle Capacità di Ragionamento Causale a Lungo Termine nei Grandi Modelli Linguistici per Video

Abstract

Nonostante i recenti progressi nella comprensione video, le capacità dei Modelli Linguistici su Video di Grande Scala (LVLM) di eseguire ragionamenti causali basati su video rimangono poco esplorate, principalmente a causa dell'assenza di benchmark rilevanti e dedicati per valutare il ragionamento causale in contesti visivamente fondati e orientati a obiettivi. Per colmare questa lacuna, introduciamo un nuovo benchmark denominato Video-based long-form Causal Reasoning (VCRBench). Abbiamo creato VCRBench utilizzando video procedurali di semplici attività quotidiane, in cui i passaggi sono deliberatamente mescolati, con ogni clip che cattura un evento causale chiave, per testare se gli LVLM possono identificare, ragionare e sequenziare correttamente gli eventi necessari per raggiungere un obiettivo specifico. Inoltre, il benchmark è stato progettato con cura per impedire agli LVLM di sfruttare scorciatoie linguistiche, come si vede nei formati a scelta multipla o nelle domande binarie, evitando anche le sfide associate alla valutazione di domande aperte. La nostra valutazione degli LVLM all'avanguardia su VCRBench suggerisce che questi modelli hanno difficoltà con il ragionamento causale a lungo termine basato su video, principalmente a causa della loro difficoltà nel modellare dipendenze causali a lungo raggio direttamente dalle osservazioni visive. Come un semplice passo verso l'abilitazione di tali capacità, proponiamo la Decomposizione Riconoscimento-Ragionamento (RRD), un approccio modulare che suddivide il ragionamento causale basato su video in due sotto-task di riconoscimento video e ragionamento causale. I nostri esperimenti su VCRBench mostrano che RRD aumenta significativamente l'accuratezza su VCRBench, con miglioramenti fino al 25,2%. Infine, la nostra analisi approfondita rivela intuizioni interessanti, ad esempio, che gli LVLM si affidano principalmente alla conoscenza linguistica per compiti complessi di ragionamento causale a lungo termine basati su video.

English

Despite recent advances in video understanding, the capabilities of Large Video Language Models (LVLMs) to perform video-based causal reasoning remains underexplored, largely due to the absence of relevant and dedicated benchmarks for evaluating causal reasoning in visually grounded and goal-driven settings. To fill this gap, we introduce a novel benchmark named Video-based long-form Causal Reasoning (VCRBench). We create VCRBench using procedural videos of simple everyday activities, where the steps are deliberately shuffled with each clip capturing a key causal event, to test whether LVLMs can identify, reason about, and correctly sequence the events needed to accomplish a specific goal. Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting linguistic shortcuts, as seen in multiple-choice or binary QA formats, while also avoiding the challenges associated with evaluating open-ended QA. Our evaluation of state-of-the-art LVLMs on VCRBench suggests that these models struggle with video-based long-form causal reasoning, primarily due to their difficulty in modeling long-range causal dependencies directly from visual observations. As a simple step toward enabling such capabilities, we propose Recognition-Reasoning Decomposition (RRD), a modular approach that breaks video-based causal reasoning into two sub-tasks of video recognition and causal reasoning. Our experiments on VCRBench show that RRD significantly boosts accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis reveals interesting insights, for instance, that LVLMs primarily rely on language knowledge for complex video-based long-form causal reasoning tasks.

VCRBench: Esplorazione delle Capacità di Ragionamento Causale a Lungo Termine nei Grandi Modelli Linguistici per Video

VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

Abstract

Support