ChatPaper.aiChatPaper

VCRBench: Исследование способностей крупных видеоязыковых моделей к длинному причинно-следственному рассуждению

VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13, 2025
Авторы: Pritam Sarkar, Ali Etemad
cs.AI

Аннотация

Несмотря на недавние достижения в области понимания видео, способности крупных языковых моделей для видео (LVLMs) выполнять причинно-следственные рассуждения на основе видео остаются недостаточно изученными, в основном из-за отсутствия соответствующих и специализированных тестовых наборов для оценки причинно-следственных рассуждений в визуально обоснованных и целевых контекстах. Чтобы заполнить этот пробел, мы представляем новый тестовый набор под названием Video-based long-form Causal Reasoning (VCRBench). Мы создали VCRBench, используя процедурные видео простых повседневных действий, где шаги намеренно перемешаны, а каждый клип фиксирует ключевое причинно-следственное событие, чтобы проверить, могут ли LVLMs идентифицировать, анализировать и правильно упорядочивать события, необходимые для достижения конкретной цели. Кроме того, тестовый набор тщательно разработан, чтобы предотвратить использование LVLMs лингвистических уловок, как это наблюдается в форматах множественного выбора или бинарных вопросов-ответов, а также избежать сложностей, связанных с оценкой открытых вопросов. Наша оценка современных LVLMs на VCRBench показывает, что эти модели испытывают трудности с длинными причинно-следственными рассуждениями на основе видео, в основном из-за их неспособности моделировать долгосрочные причинно-следственные зависимости непосредственно из визуальных наблюдений. В качестве простого шага к развитию таких способностей мы предлагаем Recognition-Reasoning Decomposition (RRD), модульный подход, который разделяет причинно-следственные рассуждения на основе видео на две подзадачи: распознавание видео и причинно-следственные рассуждения. Наши эксперименты на VCRBench показывают, что RRD значительно повышает точность на этом тестовом наборе, с улучшением до 25,2%. Наконец, наш тщательный анализ выявляет интересные инсайты, например, что LVLMs в основном полагаются на языковые знания для выполнения сложных задач длинных причинно-следственных рассуждений на основе видео.
English
Despite recent advances in video understanding, the capabilities of Large Video Language Models (LVLMs) to perform video-based causal reasoning remains underexplored, largely due to the absence of relevant and dedicated benchmarks for evaluating causal reasoning in visually grounded and goal-driven settings. To fill this gap, we introduce a novel benchmark named Video-based long-form Causal Reasoning (VCRBench). We create VCRBench using procedural videos of simple everyday activities, where the steps are deliberately shuffled with each clip capturing a key causal event, to test whether LVLMs can identify, reason about, and correctly sequence the events needed to accomplish a specific goal. Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting linguistic shortcuts, as seen in multiple-choice or binary QA formats, while also avoiding the challenges associated with evaluating open-ended QA. Our evaluation of state-of-the-art LVLMs on VCRBench suggests that these models struggle with video-based long-form causal reasoning, primarily due to their difficulty in modeling long-range causal dependencies directly from visual observations. As a simple step toward enabling such capabilities, we propose Recognition-Reasoning Decomposition (RRD), a modular approach that breaks video-based causal reasoning into two sub-tasks of video recognition and causal reasoning. Our experiments on VCRBench show that RRD significantly boosts accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis reveals interesting insights, for instance, that LVLMs primarily rely on language knowledge for complex video-based long-form causal reasoning tasks.

Summary

AI-Generated Summary

PDF41May 15, 2025