VCRBench: Исследование способностей крупных видеоязыковых моделей к длинному причинно-следственному рассуждению
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
May 13, 2025
Авторы: Pritam Sarkar, Ali Etemad
cs.AI
Аннотация
Несмотря на недавние достижения в области понимания видео, способности крупных языковых моделей для видео (LVLMs) выполнять причинно-следственные рассуждения на основе видео остаются недостаточно изученными, в основном из-за отсутствия соответствующих и специализированных тестовых наборов для оценки причинно-следственных рассуждений в визуально обоснованных и целевых контекстах. Чтобы заполнить этот пробел, мы представляем новый тестовый набор под названием Video-based long-form Causal Reasoning (VCRBench). Мы создали VCRBench, используя процедурные видео простых повседневных действий, где шаги намеренно перемешаны, а каждый клип фиксирует ключевое причинно-следственное событие, чтобы проверить, могут ли LVLMs идентифицировать, анализировать и правильно упорядочивать события, необходимые для достижения конкретной цели. Кроме того, тестовый набор тщательно разработан, чтобы предотвратить использование LVLMs лингвистических уловок, как это наблюдается в форматах множественного выбора или бинарных вопросов-ответов, а также избежать сложностей, связанных с оценкой открытых вопросов. Наша оценка современных LVLMs на VCRBench показывает, что эти модели испытывают трудности с длинными причинно-следственными рассуждениями на основе видео, в основном из-за их неспособности моделировать долгосрочные причинно-следственные зависимости непосредственно из визуальных наблюдений. В качестве простого шага к развитию таких способностей мы предлагаем Recognition-Reasoning Decomposition (RRD), модульный подход, который разделяет причинно-следственные рассуждения на основе видео на две подзадачи: распознавание видео и причинно-следственные рассуждения. Наши эксперименты на VCRBench показывают, что RRD значительно повышает точность на этом тестовом наборе, с улучшением до 25,2%. Наконец, наш тщательный анализ выявляет интересные инсайты, например, что LVLMs в основном полагаются на языковые знания для выполнения сложных задач длинных причинно-следственных рассуждений на основе видео.
English
Despite recent advances in video understanding, the capabilities of Large
Video Language Models (LVLMs) to perform video-based causal reasoning remains
underexplored, largely due to the absence of relevant and dedicated benchmarks
for evaluating causal reasoning in visually grounded and goal-driven settings.
To fill this gap, we introduce a novel benchmark named Video-based long-form
Causal Reasoning (VCRBench). We create VCRBench using procedural videos of
simple everyday activities, where the steps are deliberately shuffled with each
clip capturing a key causal event, to test whether LVLMs can identify, reason
about, and correctly sequence the events needed to accomplish a specific goal.
Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting
linguistic shortcuts, as seen in multiple-choice or binary QA formats, while
also avoiding the challenges associated with evaluating open-ended QA. Our
evaluation of state-of-the-art LVLMs on VCRBench suggests that these models
struggle with video-based long-form causal reasoning, primarily due to their
difficulty in modeling long-range causal dependencies directly from visual
observations. As a simple step toward enabling such capabilities, we propose
Recognition-Reasoning Decomposition (RRD), a modular approach that breaks
video-based causal reasoning into two sub-tasks of video recognition and causal
reasoning. Our experiments on VCRBench show that RRD significantly boosts
accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis
reveals interesting insights, for instance, that LVLMs primarily rely on
language knowledge for complex video-based long-form causal reasoning tasks.Summary
AI-Generated Summary