VCRBench: Explorando as Capacidades de Raciocínio Causal de Longo Prazo em Grandes Modelos de Linguagem para Vídeo
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
May 13, 2025
Autores: Pritam Sarkar, Ali Etemad
cs.AI
Resumo
Apesar dos avanços recentes na compreensão de vídeos, as capacidades dos Modelos de Linguagem de Vídeo de Grande Escala (LVLMs) para realizar raciocínio causal baseado em vídeo permanecem pouco exploradas, em grande parte devido à ausência de benchmarks relevantes e dedicados para avaliar o raciocínio causal em cenários visualmente fundamentados e orientados a objetivos. Para preencher essa lacuna, introduzimos um novo benchmark chamado Raciocínio Causal de Longo Prazo Baseado em Vídeo (VCRBench). Criamos o VCRBench utilizando vídeos procedimentais de atividades cotidianas simples, onde as etapas são deliberadamente embaralhadas, com cada clipe capturando um evento causal chave, para testar se os LVLMs conseguem identificar, raciocinar e sequenciar corretamente os eventos necessários para alcançar um objetivo específico. Além disso, o benchmark foi cuidadosamente projetado para evitar que os LVLMs explorem atalhos linguísticos, como visto em formatos de múltipla escolha ou perguntas binárias, ao mesmo tempo em que evita os desafios associados à avaliação de perguntas abertas. Nossa avaliação dos LVLMs de última geração no VCRBench sugere que esses modelos têm dificuldades com o raciocínio causal de longo prazo baseado em vídeo, principalmente devido à sua dificuldade em modelar dependências causais de longo alcance diretamente a partir de observações visuais. Como um passo simples para habilitar tais capacidades, propomos a Decomposição Reconhecimento-Raciocínio (RRD), uma abordagem modular que divide o raciocínio causal baseado em vídeo em duas sub-tarefas: reconhecimento de vídeo e raciocínio causal. Nossos experimentos no VCRBench mostram que o RRD aumenta significativamente a precisão no VCRBench, com ganhos de até 25,2%. Por fim, nossa análise detalhada revela insights interessantes, por exemplo, que os LVLMs dependem principalmente do conhecimento linguístico para tarefas complexas de raciocínio causal de longo prazo baseadas em vídeo.
English
Despite recent advances in video understanding, the capabilities of Large
Video Language Models (LVLMs) to perform video-based causal reasoning remains
underexplored, largely due to the absence of relevant and dedicated benchmarks
for evaluating causal reasoning in visually grounded and goal-driven settings.
To fill this gap, we introduce a novel benchmark named Video-based long-form
Causal Reasoning (VCRBench). We create VCRBench using procedural videos of
simple everyday activities, where the steps are deliberately shuffled with each
clip capturing a key causal event, to test whether LVLMs can identify, reason
about, and correctly sequence the events needed to accomplish a specific goal.
Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting
linguistic shortcuts, as seen in multiple-choice or binary QA formats, while
also avoiding the challenges associated with evaluating open-ended QA. Our
evaluation of state-of-the-art LVLMs on VCRBench suggests that these models
struggle with video-based long-form causal reasoning, primarily due to their
difficulty in modeling long-range causal dependencies directly from visual
observations. As a simple step toward enabling such capabilities, we propose
Recognition-Reasoning Decomposition (RRD), a modular approach that breaks
video-based causal reasoning into two sub-tasks of video recognition and causal
reasoning. Our experiments on VCRBench show that RRD significantly boosts
accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis
reveals interesting insights, for instance, that LVLMs primarily rely on
language knowledge for complex video-based long-form causal reasoning tasks.