VCR-Bench: 비디오 사고 연쇄 추론을 위한 포괄적 평가 프레임워크
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
April 10, 2025
저자: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
cs.AI
초록
체인 오브 사고(Chain-of-Thought, CoT) 추론의 발전은 대규모 언어 모델(Large Language Models, LLMs)과 대규모 시각-언어 모델(Large Vision-Language Models, LVLMs)의 능력을 크게 향상시켰습니다. 그러나 비디오 CoT 추론을 위한 엄격한 평가 프레임워크는 아직 부재한 상태입니다. 현재의 비디오 벤치마크는 추론 과정을 충분히 평가하지 못하며, 실패가 인지 능력의 결함에서 비롯된 것인지 아니면 추론 능력의 부족에서 비롯된 것인지를 명확히 드러내지 못합니다. 따라서 우리는 LVLMs의 비디오 체인 오브 사고 추론 능력을 종합적으로 평가하기 위한 새로운 벤치마크인 VCR-Bench를 소개합니다. VCR-Bench는 다양한 비디오 콘텐츠와 길이를 아우르는 859개의 비디오와 1,034개의 고품질 질문-답변 쌍으로 구성되어 있습니다. 각 쌍은 단계별 CoT 근거와 함께 수동으로 주석 처리되었으며, 각 단계는 인지 또는 추론 능력과의 연관성을 나타내는 태그가 지정되어 있습니다. 더불어, 우리는 7개의 독특한 작업 차원을 설계하고, 단계별로 태그가 지정된 CoT 근거를 기반으로 전체 CoT 과정을 평가하기 위한 CoT 점수를 제안합니다. VCR-Bench에서 수행된 광범위한 실험은 현재 LVLMs의 상당한 한계를 드러냈습니다. 최고 성능 모델인 o1조차도 CoT 점수 62.8%와 정확도 56.7%를 달성하는 데 그쳤으며, 대부분의 모델은 40% 미만의 점수를 기록했습니다. 실험 결과, 대부분의 모델이 추론 단계보다 인지 단계에서 더 낮은 점수를 기록했는데, 이는 복잡한 비디오 추론을 위한 시공간 정보 처리에서 LVLMs의 주요 병목 현상을 보여줍니다. CoT 점수와 정확도 간의 강력한 양의 상관관계는 우리의 평가 프레임워크의 타당성을 확인하고, 복잡한 비디오 추론 과제를 해결하는 데 있어 CoT 추론의 중요한 역할을 강조합니다. 우리는 VCR-Bench가 표준화된 평가 프레임워크로 자리 잡고, 복잡한 비디오 추론 과제에서의 실제 결점을 드러내기를 바랍니다.
English
The advancement of Chain-of-Thought (CoT) reasoning has significantly
enhanced the capabilities of large language models (LLMs) and large
vision-language models (LVLMs). However, a rigorous evaluation framework for
video CoT reasoning remains absent. Current video benchmarks fail to adequately
assess the reasoning process and expose whether failures stem from deficiencies
in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a
novel benchmark designed to comprehensively evaluate LVLMs' Video
Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos
spanning a variety of video content and durations, along with 1,034
high-quality question-answer pairs. Each pair is manually annotated with a
stepwise CoT rationale, where every step is tagged to indicate its association
with the perception or reasoning capabilities. Furthermore, we design seven
distinct task dimensions and propose the CoT score to assess the entire CoT
process based on the stepwise tagged CoT rationals. Extensive experiments on
VCR-Bench highlight substantial limitations in current LVLMs. Even the
top-performing model, o1, only achieves a 62.8% CoT score and an 56.7%
accuracy, while most models score below 40%. Experiments show most models score
lower on perception than reasoning steps, revealing LVLMs' key bottleneck in
temporal-spatial information processing for complex video reasoning. A robust
positive correlation between the CoT score and accuracy confirms the validity
of our evaluation framework and underscores the critical role of CoT reasoning
in solving complex video reasoning tasks. We hope VCR-Bench to serve as a
standardized evaluation framework and expose the actual drawbacks in complex
video reasoning task.Summary
AI-Generated Summary