VCR-Bench: Комплексная система оценки для видео-рассуждений по цепочке мыслей
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
April 10, 2025
Авторы: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
cs.AI
Аннотация
Развитие метода цепочки рассуждений (Chain-of-Thought, CoT) значительно расширило возможности крупных языковых моделей (LLM) и крупных моделей, работающих с визуальными и текстовыми данными (LVLM). Однако строгая система оценки для применения CoT в видеоанализе до сих пор отсутствует. Современные тестовые наборы для видео не позволяют адекватно оценить процесс рассуждений и выявить, связаны ли ошибки с недостатками в восприятии или в способности к логическому мышлению. В связи с этим мы представляем VCR-Bench — новый тестовый набор, разработанный для всесторонней оценки способностей LVLM к цепочке рассуждений при работе с видео. VCR-Bench включает 859 видеороликов, охватывающих разнообразный контент и продолжительность, а также 1034 высококачественных пары вопрос-ответ. Каждая пара вручную аннотирована пошаговой цепочкой рассуждений, где каждый шаг помечен для указания его связи с восприятием или логическим мышлением. Кроме того, мы разработали семь различных задач и предложили показатель CoT для оценки всего процесса рассуждений на основе пошагово аннотированных цепочек. Масштабные эксперименты на VCR-Bench выявили существенные ограничения современных LVLM. Даже лучшая модель, o1, достигает лишь 62,8% по показателю CoT и 56,7% точности, в то время как большинство моделей показывают результат ниже 40%. Эксперименты демонстрируют, что большинство моделей хуже справляются с шагами восприятия, чем с шагами рассуждений, что указывает на ключевое слабое место LVLM в обработке временно-пространственной информации для сложного видеоанализа. Сильная положительная корреляция между показателем CoT и точностью подтверждает валидность нашей системы оценки и подчеркивает критическую роль цепочки рассуждений в решении сложных задач видеоанализа. Мы надеемся, что VCR-Bench станет стандартизированной системой оценки и поможет выявить реальные недостатки в решении сложных задач видеоанализа.
English
The advancement of Chain-of-Thought (CoT) reasoning has significantly
enhanced the capabilities of large language models (LLMs) and large
vision-language models (LVLMs). However, a rigorous evaluation framework for
video CoT reasoning remains absent. Current video benchmarks fail to adequately
assess the reasoning process and expose whether failures stem from deficiencies
in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a
novel benchmark designed to comprehensively evaluate LVLMs' Video
Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos
spanning a variety of video content and durations, along with 1,034
high-quality question-answer pairs. Each pair is manually annotated with a
stepwise CoT rationale, where every step is tagged to indicate its association
with the perception or reasoning capabilities. Furthermore, we design seven
distinct task dimensions and propose the CoT score to assess the entire CoT
process based on the stepwise tagged CoT rationals. Extensive experiments on
VCR-Bench highlight substantial limitations in current LVLMs. Even the
top-performing model, o1, only achieves a 62.8% CoT score and an 56.7%
accuracy, while most models score below 40%. Experiments show most models score
lower on perception than reasoning steps, revealing LVLMs' key bottleneck in
temporal-spatial information processing for complex video reasoning. A robust
positive correlation between the CoT score and accuracy confirms the validity
of our evaluation framework and underscores the critical role of CoT reasoning
in solving complex video reasoning tasks. We hope VCR-Bench to serve as a
standardized evaluation framework and expose the actual drawbacks in complex
video reasoning task.Summary
AI-Generated Summary