ChatPaper.aiChatPaper

VCRBench: Explorando as Capacidades de Raciocínio Causal de Longo Prazo em Grandes Modelos de Linguagem para Vídeo

VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13, 2025
Autores: Pritam Sarkar, Ali Etemad
cs.AI

Resumo

Apesar dos avanços recentes na compreensão de vídeos, as capacidades dos Modelos de Linguagem de Vídeo de Grande Escala (LVLMs) para realizar raciocínio causal baseado em vídeo permanecem pouco exploradas, em grande parte devido à ausência de benchmarks relevantes e dedicados para avaliar o raciocínio causal em cenários visualmente fundamentados e orientados a objetivos. Para preencher essa lacuna, introduzimos um novo benchmark chamado Raciocínio Causal de Longo Prazo Baseado em Vídeo (VCRBench). Criamos o VCRBench utilizando vídeos procedimentais de atividades cotidianas simples, onde as etapas são deliberadamente embaralhadas, com cada clipe capturando um evento causal chave, para testar se os LVLMs conseguem identificar, raciocinar e sequenciar corretamente os eventos necessários para alcançar um objetivo específico. Além disso, o benchmark foi cuidadosamente projetado para evitar que os LVLMs explorem atalhos linguísticos, como visto em formatos de múltipla escolha ou perguntas binárias, ao mesmo tempo em que evita os desafios associados à avaliação de perguntas abertas. Nossa avaliação dos LVLMs de última geração no VCRBench sugere que esses modelos têm dificuldades com o raciocínio causal de longo prazo baseado em vídeo, principalmente devido à sua dificuldade em modelar dependências causais de longo alcance diretamente a partir de observações visuais. Como um passo simples para habilitar tais capacidades, propomos a Decomposição Reconhecimento-Raciocínio (RRD), uma abordagem modular que divide o raciocínio causal baseado em vídeo em duas sub-tarefas: reconhecimento de vídeo e raciocínio causal. Nossos experimentos no VCRBench mostram que o RRD aumenta significativamente a precisão no VCRBench, com ganhos de até 25,2%. Por fim, nossa análise detalhada revela insights interessantes, por exemplo, que os LVLMs dependem principalmente do conhecimento linguístico para tarefas complexas de raciocínio causal de longo prazo baseadas em vídeo.
English
Despite recent advances in video understanding, the capabilities of Large Video Language Models (LVLMs) to perform video-based causal reasoning remains underexplored, largely due to the absence of relevant and dedicated benchmarks for evaluating causal reasoning in visually grounded and goal-driven settings. To fill this gap, we introduce a novel benchmark named Video-based long-form Causal Reasoning (VCRBench). We create VCRBench using procedural videos of simple everyday activities, where the steps are deliberately shuffled with each clip capturing a key causal event, to test whether LVLMs can identify, reason about, and correctly sequence the events needed to accomplish a specific goal. Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting linguistic shortcuts, as seen in multiple-choice or binary QA formats, while also avoiding the challenges associated with evaluating open-ended QA. Our evaluation of state-of-the-art LVLMs on VCRBench suggests that these models struggle with video-based long-form causal reasoning, primarily due to their difficulty in modeling long-range causal dependencies directly from visual observations. As a simple step toward enabling such capabilities, we propose Recognition-Reasoning Decomposition (RRD), a modular approach that breaks video-based causal reasoning into two sub-tasks of video recognition and causal reasoning. Our experiments on VCRBench show that RRD significantly boosts accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis reveals interesting insights, for instance, that LVLMs primarily rely on language knowledge for complex video-based long-form causal reasoning tasks.
PDF52May 15, 2025