VCR-Bench: Ein umfassendes Bewertungsframework für videobasierte Kettenfolge-Argumentation
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
April 10, 2025
Autoren: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
cs.AI
Zusammenfassung
Die Weiterentwicklung des Chain-of-Thought (CoT)-Denkens hat die Fähigkeiten von großen Sprachmodellen (LLMs) und großen visuell-sprachlichen Modellen (LVLMs) erheblich verbessert. Dennoch fehlt ein rigoroses Bewertungsrahmenwerk für das Video-CoT-Denken. Aktuelle Video-Benchmarks sind nicht in der Lage, den Denkprozess angemessen zu bewerten und aufzuzeigen, ob Fehler auf Mängel in der Wahrnehmung oder in den Denkfähigkeiten beruhen. Daher stellen wir VCR-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Video-Chain-of-Thought-Denkfähigkeiten von LVLMs umfassend zu bewerten. VCR-Bench umfasst 859 Videos, die eine Vielzahl von Videoinhalten und -dauern abdecken, sowie 1.034 hochwertige Frage-Antwort-Paare. Jedes Paar ist manuell mit einer schrittweisen CoT-Begründung annotiert, wobei jeder Schritt gekennzeichnet ist, um seine Zuordnung zu den Wahrnehmungs- oder Denkfähigkeiten anzuzeigen. Darüber hinaus entwerfen wir sieben verschiedene Aufgabenbereiche und schlagen den CoT-Score vor, um den gesamten CoT-Prozess basierend auf den schrittweise gekennzeichneten CoT-Begründungen zu bewerten. Umfangreiche Experimente auf VCR-Bench verdeutlichen erhebliche Einschränkungen bei aktuellen LVLMs. Selbst das leistungsstärkste Modell, o1, erreicht nur einen CoT-Score von 62,8 % und eine Genauigkeit von 56,7 %, während die meisten Modelle unter 40 % liegen. Die Experimente zeigen, dass die meisten Modelle bei Wahrnehmungsschritten schlechter abschneiden als bei Denkschritten, was den entscheidenden Engpass von LVLMs bei der Verarbeitung von zeitlich-räumlichen Informationen für komplexes Video-Denken offenbart. Eine robuste positive Korrelation zwischen dem CoT-Score und der Genauigkeit bestätigt die Gültigkeit unseres Bewertungsrahmenwerks und unterstreicht die entscheidende Rolle des CoT-Denkens bei der Lösung komplexer Video-Denkaufgaben. Wir hoffen, dass VCR-Bench als standardisiertes Bewertungsrahmenwerk dient und die tatsächlichen Schwächen bei komplexen Video-Denkaufgaben aufzeigt.
English
The advancement of Chain-of-Thought (CoT) reasoning has significantly
enhanced the capabilities of large language models (LLMs) and large
vision-language models (LVLMs). However, a rigorous evaluation framework for
video CoT reasoning remains absent. Current video benchmarks fail to adequately
assess the reasoning process and expose whether failures stem from deficiencies
in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a
novel benchmark designed to comprehensively evaluate LVLMs' Video
Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos
spanning a variety of video content and durations, along with 1,034
high-quality question-answer pairs. Each pair is manually annotated with a
stepwise CoT rationale, where every step is tagged to indicate its association
with the perception or reasoning capabilities. Furthermore, we design seven
distinct task dimensions and propose the CoT score to assess the entire CoT
process based on the stepwise tagged CoT rationals. Extensive experiments on
VCR-Bench highlight substantial limitations in current LVLMs. Even the
top-performing model, o1, only achieves a 62.8% CoT score and an 56.7%
accuracy, while most models score below 40%. Experiments show most models score
lower on perception than reasoning steps, revealing LVLMs' key bottleneck in
temporal-spatial information processing for complex video reasoning. A robust
positive correlation between the CoT score and accuracy confirms the validity
of our evaluation framework and underscores the critical role of CoT reasoning
in solving complex video reasoning tasks. We hope VCR-Bench to serve as a
standardized evaluation framework and expose the actual drawbacks in complex
video reasoning task.Summary
AI-Generated Summary