VRBench: 장편 내러티브 비디오에서의 다단계 추론을 위한 벤치마크
VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos
June 12, 2025
저자: Jiashuo Yu, Yue Wu, Meng Chu, Zhifei Ren, Zizheng Huang, Pei Chu, Ruijie Zhang, Yinan He, Qirui Li, Songze Li, Zhenxiang Li, Zhongying Tu, Conghui He, Yu Qiao, Yali Wang, Yi Wang, Limin Wang
cs.AI
초록
본 논문에서는 대형 모델의 다단계 추론 능력을 평가하기 위해 제작된 최초의 장편 내러티브 비디오 벤치마크인 VRBench를 소개한다. 이는 기존 평가에서 간과되었던 시간적 추론과 절차적 타당성의 한계를 해결하기 위해 설계되었다. VRBench는 평균 1.6시간 길이의 1,010개의 장편 비디오와 9,468개의 인간이 라벨링한 다단계 질문-답변 쌍, 그리고 타임스탬프가 포함된 30,292개의 추론 단계로 구성되어 있다. 이 비디오들은 전문가 간 검토를 포함한 다단계 필터링 과정을 통해 선별되었으며, 플롯의 일관성을 우선시하였다. 우리는 인간과 AI가 협력하여 일관된 추론 체인을 생성하는 프레임워크를 개발하였으며, 이는 사건 귀속, 암묵적 추론 등 7가지 유형의 다단계 시간적 근거를 요구한다. VRBench는 결과와 과정 두 수준에서 모델을 평가하는 다단계 평가 파이프라인을 설계하였다. 최종 결과를 위한 객관식 문제 외에도, 우리는 진행 수준에서의 LLM(대형 언어 모델) 기반 채점 메트릭을 제안하여 추론 체인의 질을 다각적으로 종합적으로 평가한다. VRBench를 통해 12개의 LLM과 16개의 VLM(시각-언어 모델)에 대한 광범위한 평가를 수행하였으며, 이를 통해 다단계 추론 분야를 발전시킬 수 있는 유용한 통찰을 제공한다.
English
We present VRBench, the first long narrative video benchmark crafted for
evaluating large models' multi-step reasoning capabilities, addressing
limitations in existing evaluations that overlook temporal reasoning and
procedural validity. It comprises 1,010 long videos (with an average duration
of 1.6 hours), along with 9,468 human-labeled multi-step question-answering
pairs and 30,292 reasoning steps with timestamps. These videos are curated via
a multi-stage filtering process including expert inter-rater reviewing to
prioritize plot coherence. We develop a human-AI collaborative framework that
generates coherent reasoning chains, each requiring multiple temporally
grounded steps, spanning seven types (e.g., event attribution, implicit
inference). VRBench designs a multi-phase evaluation pipeline that assesses
models at both the outcome and process levels. Apart from the MCQs for the
final results, we propose a progress-level LLM-guided scoring metric to
evaluate the quality of the reasoning chain from multiple dimensions
comprehensively. Through extensive evaluations of 12 LLMs and 16 VLMs on
VRBench, we undertake a thorough analysis and provide valuable insights that
advance the field of multi-step reasoning.