ChatPaper.aiChatPaper

VCRBench: 대형 비디오 언어 모델의 장편 인과 추론 능력 탐구

VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13, 2025
저자: Pritam Sarkar, Ali Etemad
cs.AI

초록

비디오 이해 분야의 최근 발전에도 불구하고, 대형 비디오 언어 모델(LVLMs)의 비디오 기반 인과적 추론 능력은 여전히 충분히 탐구되지 않고 있습니다. 이는 주로 시각적으로 근거를 둔 목표 지향적 환경에서 인과적 추론을 평가하기 위한 관련성 있고 전용 벤치마크의 부재 때문입니다. 이러한 공백을 메우기 위해, 우리는 비디오 기반 장편 인과적 추론(Video-based long-form Causal Reasoning, VCRBench)이라는 새로운 벤치마크를 소개합니다. VCRBench는 일상적인 간단한 활동의 절차적 비디오를 사용하여 만들어졌으며, 각 클립이 주요 인과적 사건을 포착하도록 단계를 의도적으로 섞어, LVLMs가 특정 목표를 달성하기 위해 필요한 사건을 식별하고, 추론하며, 올바르게 순서화할 수 있는지를 테스트합니다. 또한, 이 벤치마크는 다중 선택 또는 이진 질의응답 형식에서 볼 수 있는 언어적 단축키를 LVLMs가 악용하는 것을 방지하도록 신중하게 설계되었으며, 동시에 개방형 질의응답 평가와 관련된 어려움도 피합니다. VCRBench에서 최첨단 LVLMs를 평가한 결과, 이러한 모델들이 비디오 기반 장편 인과적 추론에 어려움을 겪는 것으로 나타났으며, 이는 주로 시각적 관찰로부터 장거리 인과적 의존성을 직접 모델링하는 데 어려움을 겪기 때문입니다. 이러한 능력을 가능하게 하는 간단한 단계로, 우리는 비디오 기반 인과적 추론을 비디오 인식과 인과적 추론이라는 두 하위 작업으로 분해하는 모듈식 접근법인 인식-추론 분해(Recognition-Reasoning Decomposition, RRD)를 제안합니다. VCRBench에서의 실험 결과, RRD는 정확도를 최대 25.2%까지 크게 향상시키는 것으로 나타났습니다. 마지막으로, 우리의 철저한 분석은 LVLMs가 복잡한 비디오 기반 장편 인과적 추론 작업에서 주로 언어 지식에 의존한다는 흥미로운 통찰을 제공합니다.
English
Despite recent advances in video understanding, the capabilities of Large Video Language Models (LVLMs) to perform video-based causal reasoning remains underexplored, largely due to the absence of relevant and dedicated benchmarks for evaluating causal reasoning in visually grounded and goal-driven settings. To fill this gap, we introduce a novel benchmark named Video-based long-form Causal Reasoning (VCRBench). We create VCRBench using procedural videos of simple everyday activities, where the steps are deliberately shuffled with each clip capturing a key causal event, to test whether LVLMs can identify, reason about, and correctly sequence the events needed to accomplish a specific goal. Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting linguistic shortcuts, as seen in multiple-choice or binary QA formats, while also avoiding the challenges associated with evaluating open-ended QA. Our evaluation of state-of-the-art LVLMs on VCRBench suggests that these models struggle with video-based long-form causal reasoning, primarily due to their difficulty in modeling long-range causal dependencies directly from visual observations. As a simple step toward enabling such capabilities, we propose Recognition-Reasoning Decomposition (RRD), a modular approach that breaks video-based causal reasoning into two sub-tasks of video recognition and causal reasoning. Our experiments on VCRBench show that RRD significantly boosts accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis reveals interesting insights, for instance, that LVLMs primarily rely on language knowledge for complex video-based long-form causal reasoning tasks.

Summary

AI-Generated Summary

PDF42May 15, 2025