VRBench: Un Punto de Referencia para el Razonamiento Multi-Etapas en Videos Narrativos Largos
VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos
June 12, 2025
Autores: Jiashuo Yu, Yue Wu, Meng Chu, Zhifei Ren, Zizheng Huang, Pei Chu, Ruijie Zhang, Yinan He, Qirui Li, Songze Li, Zhenxiang Li, Zhongying Tu, Conghui He, Yu Qiao, Yali Wang, Yi Wang, Limin Wang
cs.AI
Resumen
Presentamos VRBench, el primer benchmark de videos narrativos extensos diseñado para evaluar las capacidades de razonamiento multi-paso de modelos grandes, abordando las limitaciones en las evaluaciones existentes que pasan por alto el razonamiento temporal y la validez procedimental. Este consta de 1,010 videos extensos (con una duración promedio de 1.6 horas), junto con 9,468 pares de preguntas y respuestas multi-paso etiquetadas por humanos y 30,292 pasos de razonamiento con marcas de tiempo. Estos videos fueron seleccionados mediante un proceso de filtrado multi-etapa que incluye la revisión por expertos para priorizar la coherencia narrativa. Desarrollamos un marco de colaboración humano-IA que genera cadenas de razonamiento coherentes, cada una de las cuales requiere múltiples pasos temporalmente fundamentados, abarcando siete tipos (por ejemplo, atribución de eventos, inferencia implícita). VRBench diseña una pipeline de evaluación multi-fase que evalúa los modelos tanto a nivel de resultados como de proceso. Además de las preguntas de opción múltiple (MCQ) para los resultados finales, proponemos una métrica de puntuación guiada por LLM a nivel de progreso para evaluar la calidad de la cadena de razonamiento desde múltiples dimensiones de manera integral. A través de evaluaciones extensas de 12 LLMs y 16 VLMs en VRBench, realizamos un análisis exhaustivo y proporcionamos insights valiosos que avanzan el campo del razonamiento multi-paso.
English
We present VRBench, the first long narrative video benchmark crafted for
evaluating large models' multi-step reasoning capabilities, addressing
limitations in existing evaluations that overlook temporal reasoning and
procedural validity. It comprises 1,010 long videos (with an average duration
of 1.6 hours), along with 9,468 human-labeled multi-step question-answering
pairs and 30,292 reasoning steps with timestamps. These videos are curated via
a multi-stage filtering process including expert inter-rater reviewing to
prioritize plot coherence. We develop a human-AI collaborative framework that
generates coherent reasoning chains, each requiring multiple temporally
grounded steps, spanning seven types (e.g., event attribution, implicit
inference). VRBench designs a multi-phase evaluation pipeline that assesses
models at both the outcome and process levels. Apart from the MCQs for the
final results, we propose a progress-level LLM-guided scoring metric to
evaluate the quality of the reasoning chain from multiple dimensions
comprehensively. Through extensive evaluations of 12 LLMs and 16 VLMs on
VRBench, we undertake a thorough analysis and provide valuable insights that
advance the field of multi-step reasoning.