VCR-Bench: Een Uitgebreid Evaluatiekader voor Video Ketendenkredenering
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
April 10, 2025
Auteurs: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
cs.AI
Samenvatting
De vooruitgang in Chain-of-Thought (CoT) redenering heeft de mogelijkheden van grote taalmmodellen (LLMs) en grote visueel-taalmmodellen (LVLMs) aanzienlijk verbeterd. Er ontbreekt echter een rigoureus evaluatiekader voor video CoT-redenering. Bestaande videobenchmarks slagen er niet in om het redeneerproces adequaat te beoordelen en bloot te leggen of fouten voortkomen uit tekortkomingen in perceptie of redeneervaardigheden. Daarom introduceren we VCR-Bench, een nieuwe benchmark die is ontworpen om de Video Chain-of-Thought Redeneervaardigheden van LVLMs uitgebreid te evalueren. VCR-Bench bestaat uit 859 video's die een verscheidenheid aan video-inhoud en -duur beslaan, samen met 1.034 hoogwaardige vraag-antwoordparen. Elk paar is handmatig geannoteerd met een stapsgewijze CoT-redenering, waarbij elke stap is gelabeld om de associatie met perceptie- of redeneervaardigheden aan te geven. Bovendien ontwerpen we zeven verschillende taakdimensies en introduceren we de CoT-score om het gehele CoT-proces te beoordelen op basis van de stapsgewijs gelabelde CoT-redeneringen. Uitgebreide experimenten op VCR-Bench benadrukken aanzienlijke beperkingen in huidige LVLMs. Zelfs het best presterende model, o1, behaalt slechts een CoT-score van 62,8% en een nauwkeurigheid van 56,7%, terwijl de meeste modellen onder de 40% scoren. Experimenten tonen aan dat de meeste modellen lager scoren op perceptie dan op redeneerstappen, wat de belangrijkste bottleneck van LVLMs blootlegt in het verwerken van temporeel-ruimtelijke informatie voor complexe videoredenering. Een sterke positieve correlatie tussen de CoT-score en nauwkeurigheid bevestigt de geldigheid van ons evaluatiekader en onderstreept de cruciale rol van CoT-redenering bij het oplossen van complexe videoredeneertaken. We hopen dat VCR-Bench zal dienen als een gestandaardiseerd evaluatiekader en de daadwerkelijke tekortkomingen in complexe videoredeneertaken blootlegt.
English
The advancement of Chain-of-Thought (CoT) reasoning has significantly
enhanced the capabilities of large language models (LLMs) and large
vision-language models (LVLMs). However, a rigorous evaluation framework for
video CoT reasoning remains absent. Current video benchmarks fail to adequately
assess the reasoning process and expose whether failures stem from deficiencies
in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a
novel benchmark designed to comprehensively evaluate LVLMs' Video
Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos
spanning a variety of video content and durations, along with 1,034
high-quality question-answer pairs. Each pair is manually annotated with a
stepwise CoT rationale, where every step is tagged to indicate its association
with the perception or reasoning capabilities. Furthermore, we design seven
distinct task dimensions and propose the CoT score to assess the entire CoT
process based on the stepwise tagged CoT rationals. Extensive experiments on
VCR-Bench highlight substantial limitations in current LVLMs. Even the
top-performing model, o1, only achieves a 62.8% CoT score and an 56.7%
accuracy, while most models score below 40%. Experiments show most models score
lower on perception than reasoning steps, revealing LVLMs' key bottleneck in
temporal-spatial information processing for complex video reasoning. A robust
positive correlation between the CoT score and accuracy confirms the validity
of our evaluation framework and underscores the critical role of CoT reasoning
in solving complex video reasoning tasks. We hope VCR-Bench to serve as a
standardized evaluation framework and expose the actual drawbacks in complex
video reasoning task.