VCR-Bench:ビデオ連鎖思考推論のための包括的評価フレームワーク
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
April 10, 2025
著者: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
cs.AI
要旨
Chain-of-Thought(CoT)推論の進展は、大規模言語モデル(LLMs)および大規模視覚言語モデル(LVLMs)の能力を大幅に向上させてきた。しかし、ビデオCoT推論に対する厳密な評価フレームワークは依然として存在しない。現在のビデオベンチマークは、推論プロセスを適切に評価しておらず、失敗が知覚能力の欠如によるものか、推論能力の欠如によるものかを明らかにすることができない。そこで、我々はVCR-Benchを導入する。これは、LVLMsのビデオChain-of-Thought推論能力を包括的に評価するために設計された新しいベンチマークである。VCR-Benchは、様々なビデオコンテンツと時間幅にわたる859本のビデオと、1,034組の高品質な質問-回答ペアで構成されている。各ペアは、段階的なCoT根拠を手動で注釈付けされており、各ステップは知覚能力または推論能力との関連を示すタグが付けられている。さらに、我々は7つの異なるタスク次元を設計し、段階的にタグ付けされたCoT根拠に基づいてCoTプロセス全体を評価するためのCoTスコアを提案する。VCR-Benchでの広範な実験は、現在のLVLMsの重大な限界を浮き彫りにしている。最高性能のモデルであるo1でさえ、CoTスコアは62.8%、精度は56.7%しか達成できず、ほとんどのモデルは40%未満のスコアである。実験では、ほとんどのモデルが推論ステップよりも知覚ステップで低いスコアを示し、複雑なビデオ推論における時空間情報処理がLVLMsの主要なボトルネックであることを明らかにしている。CoTスコアと精度の間の強い正の相関関係は、我々の評価フレームワークの有効性を確認し、複雑なビデオ推論タスクを解決する上でCoT推論が重要な役割を果たすことを強調している。我々は、VCR-Benchが標準化された評価フレームワークとして機能し、複雑なビデオ推論タスクにおける実際の欠点を明らかにすることを期待している。
English
The advancement of Chain-of-Thought (CoT) reasoning has significantly
enhanced the capabilities of large language models (LLMs) and large
vision-language models (LVLMs). However, a rigorous evaluation framework for
video CoT reasoning remains absent. Current video benchmarks fail to adequately
assess the reasoning process and expose whether failures stem from deficiencies
in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a
novel benchmark designed to comprehensively evaluate LVLMs' Video
Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos
spanning a variety of video content and durations, along with 1,034
high-quality question-answer pairs. Each pair is manually annotated with a
stepwise CoT rationale, where every step is tagged to indicate its association
with the perception or reasoning capabilities. Furthermore, we design seven
distinct task dimensions and propose the CoT score to assess the entire CoT
process based on the stepwise tagged CoT rationals. Extensive experiments on
VCR-Bench highlight substantial limitations in current LVLMs. Even the
top-performing model, o1, only achieves a 62.8% CoT score and an 56.7%
accuracy, while most models score below 40%. Experiments show most models score
lower on perception than reasoning steps, revealing LVLMs' key bottleneck in
temporal-spatial information processing for complex video reasoning. A robust
positive correlation between the CoT score and accuracy confirms the validity
of our evaluation framework and underscores the critical role of CoT reasoning
in solving complex video reasoning tasks. We hope VCR-Bench to serve as a
standardized evaluation framework and expose the actual drawbacks in complex
video reasoning task.Summary
AI-Generated Summary