VCRBench: Exploración de las capacidades de razonamiento causal a largo plazo en grandes modelos de lenguaje y video
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
May 13, 2025
Autores: Pritam Sarkar, Ali Etemad
cs.AI
Resumen
A pesar de los recientes avances en la comprensión de videos, las capacidades de los Modelos de Lenguaje de Video a Gran Escala (LVLMs, por sus siglas en inglés) para realizar razonamiento causal basado en video siguen siendo poco exploradas, en gran parte debido a la ausencia de benchmarks relevantes y dedicados para evaluar el razonamiento causal en entornos visualmente fundamentados y orientados a objetivos. Para llenar este vacío, presentamos un nuevo benchmark llamado Razonamiento Causal de Largo Plazo Basado en Video (VCRBench). Creamos VCRBench utilizando videos procedimentales de actividades cotidianas simples, donde los pasos están deliberadamente mezclados, con cada clip capturando un evento causal clave, para probar si los LVLMs pueden identificar, razonar y secuenciar correctamente los eventos necesarios para alcanzar un objetivo específico. Además, el benchmark está cuidadosamente diseñado para evitar que los LVLMs exploten atajos lingüísticos, como se observa en formatos de preguntas de opción múltiple o binarias, al mismo tiempo que se evitan los desafíos asociados con la evaluación de preguntas abiertas. Nuestra evaluación de los LVLMs más avanzados en VCRBench sugiere que estos modelos tienen dificultades con el razonamiento causal de largo plazo basado en video, principalmente debido a su dificultad para modelar dependencias causales de largo alcance directamente a partir de observaciones visuales. Como un paso simple hacia la habilitación de tales capacidades, proponemos la Descomposición Reconocimiento-Razonamiento (RRD, por sus siglas en inglés), un enfoque modular que divide el razonamiento causal basado en video en dos sub-tareas: reconocimiento de video y razonamiento causal. Nuestros experimentos en VCRBench muestran que RRD aumenta significativamente la precisión en VCRBench, con mejoras de hasta un 25.2%. Finalmente, nuestro análisis exhaustivo revela insights interesantes, por ejemplo, que los LVLMs dependen principalmente del conocimiento lingüístico para tareas complejas de razonamiento causal de largo plazo basado en video.
English
Despite recent advances in video understanding, the capabilities of Large
Video Language Models (LVLMs) to perform video-based causal reasoning remains
underexplored, largely due to the absence of relevant and dedicated benchmarks
for evaluating causal reasoning in visually grounded and goal-driven settings.
To fill this gap, we introduce a novel benchmark named Video-based long-form
Causal Reasoning (VCRBench). We create VCRBench using procedural videos of
simple everyday activities, where the steps are deliberately shuffled with each
clip capturing a key causal event, to test whether LVLMs can identify, reason
about, and correctly sequence the events needed to accomplish a specific goal.
Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting
linguistic shortcuts, as seen in multiple-choice or binary QA formats, while
also avoiding the challenges associated with evaluating open-ended QA. Our
evaluation of state-of-the-art LVLMs on VCRBench suggests that these models
struggle with video-based long-form causal reasoning, primarily due to their
difficulty in modeling long-range causal dependencies directly from visual
observations. As a simple step toward enabling such capabilities, we propose
Recognition-Reasoning Decomposition (RRD), a modular approach that breaks
video-based causal reasoning into two sub-tasks of video recognition and causal
reasoning. Our experiments on VCRBench show that RRD significantly boosts
accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis
reveals interesting insights, for instance, that LVLMs primarily rely on
language knowledge for complex video-based long-form causal reasoning tasks.Summary
AI-Generated Summary