ChatPaper.aiChatPaper

V-STaR: Evaluación de Video-LLMs en el Razonamiento Espacio-Temporal de Videos

V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

March 14, 2025
Autores: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong
cs.AI

Resumen

Los humanos procesan el razonamiento en videos mediante una lógica secuencial espacio-temporal: primero identifican los fotogramas relevantes ("cuándo"), luego analizan las relaciones espaciales ("dónde") entre los objetos clave y, finalmente, aprovechan estas relaciones para extraer inferencias ("qué"). Sin embargo, ¿pueden los Modelos de Lenguaje de Gran Escala para Video (Video-LLMs) también "razonar a través de una lógica secuencial espacio-temporal" en videos? Los puntos de referencia existentes para Video-LLMs se centran principalmente en evaluar la presencia de objetos, descuidando el razonamiento relacional. En consecuencia, es difícil medir si un modelo realmente comprende las interacciones entre objetos (acciones/eventos) en los videos o simplemente se basa en "memorias" preentrenadas de co-ocurrencias como sesgos al generar respuestas. En este trabajo, presentamos un punto de referencia de Razonamiento Espacio-Temporal en Video (V-STaR) para abordar estas limitaciones. La idea clave es descomponer la comprensión de videos en una tarea de Razonamiento Espacio-Temporal Inverso (RSTR) que evalúa simultáneamente qué objetos están presentes, cuándo ocurren los eventos y dónde se ubican, mientras captura la lógica subyacente de la Cadena de Pensamiento (CoT). Para respaldar esta evaluación, construimos un conjunto de datos que busca elicitar el proceso de razonamiento espacio-temporal de los Video-LLMs. Este contiene preguntas CoT de granularidad gruesa a fina generadas mediante una canalización semiautomatizada impulsada por GPT-4, incorporando cadenas de razonamiento explícitas para imitar la cognición humana. Los experimentos con 14 Video-LLMs en nuestro V-STaR revelan brechas significativas entre los Video-LLMs actuales y las necesidades de un razonamiento espacio-temporal robusto y consistente.
English
Human processes video reasoning in a sequential spatio-temporal reasoning logic, we first identify the relevant frames ("when") and then analyse the spatial relationships ("where") between key objects, and finally leverage these relationships to draw inferences ("what"). However, can Video Large Language Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in videos? Existing Video-LLM benchmarks primarily focus on assessing object presence, neglecting relational reasoning. Consequently, it is difficult to measure whether a model truly comprehends object interactions (actions/events) in videos or merely relies on pre-trained "memory" of co-occurrences as biases in generating answers. In this work, we introduce a Video Spatio-Temporal Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR) task that simultaneously evaluates what objects are present, when events occur, and where they are located while capturing the underlying Chain-of-thought (CoT) logic. To support this evaluation, we construct a dataset to elicit the spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding explicit reasoning chains to mimic human cognition. Experiments from 14 Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and the needs for robust and consistent spatio-temporal reasoning.

Summary

AI-Generated Summary

PDF122March 18, 2025